Inside Google ダジャレサーチβ
2008年4月3日木曜日
Posted by 工藤 拓 (ダジャレサーチ開発チーム)
このダジャレをつくったのはダレじゃ
Google ダジャレサーチ β 、エイプリルフールのジョークサイトだけだと思ったらそれはちょっと違います。サービスは終了していますが、4月1日には、いくつかの検索キーワードで実際にくだらないダジャレが表示されていました。急にダジャレが出てきてビックリされた方や、100 以上の検索キーワードを見つけた方もいらっしゃるようです。さらに、これらのダジャレは社員がひねり出したものではなく、機械的に自動生成されたものです。
Google ダジャレサーチ β は、サイトの説明にあるように、OyajiBot, BakaUke, KudaRank の三つのシステムで構成されています。 ●OyajiBot: OyajiBot は、Web 上から、それなりの長さでかつそれ自身でおもしろみのある文を見つけてくるシステムです。Google の分散処理システム MapReduce を使って、世界中のWeb 上のドキュメントから探してきています。﹁面白いけどしつこくない﹂といった文がこの段階で見つかります ●BakaUke: BakaUke は、ユーザーの検索キーワードと OyajiBot が見つけた文を無理やりつなげてダジャレの候補を生成するシステムです。たとえば、﹁国内線﹂と﹁面白いけどしつこくない﹂をつなげて、﹁面白いけどシツコクナイセン﹂というダジャレ候補が作られます。 ●KudaRank: BakaUke は一度に大量の候補を作り出します。KudaRank はそれらをランキングし、もっともくだらないダジャレを見つけます。検索キーワードと文の構文的・意味的な不整合等を考慮しながら機械学習アルゴリズムが適切に!?ランキングします 人手の介在がないため、微妙にこなれていないダジャレが生成されてしまうのですが、それはそれで面白みがあります。
そもそも、このダジャレサーチは Google の﹁20% ルール﹂からスタートしました。︵ Google の﹁20% ルール﹂とは、勤務時間の 20% を自分の好きなことに使ってよい、という世界共通の社内ルールです。︶ もともと自然言語処理を 専門としていたので、その経験を生かした面白いことができないかと思い、ダジャレサーチを思いつきました。昨年末、Tokyo Engineering Hackathon という一泊二日の(主に 20% ルールのための)開発合宿をエンジニアどうしで行い、そのまとまった時間を利用してシステムを作りました。その後、社内でデモをする機会があり、(日本語 がわからないであろう) Moutain View のエンジニアを含む多くの同僚から様々なフィードバックとサポートをいただきながら、エイプリルフールのリリースとなりました。Gmail をはじめ、Google のプロダクトにはこの﹁20% ルール﹂から生まれたものがたくさんあります。
Google ダジャレサーチは今後どうなるか未定ですが、またいつの日か皆様にお披露目できる機会があればうれしいです。
このダジャレをつくったのはダレじゃ
Google ダジャレサーチ β 、エイプリルフールのジョークサイトだけだと思ったらそれはちょっと違います。サービスは終了していますが、4月1日には、いくつかの検索キーワードで実際にくだらないダジャレが表示されていました。急にダジャレが出てきてビックリされた方や、100 以上の検索キーワードを見つけた方もいらっしゃるようです。さらに、これらのダジャレは社員がひねり出したものではなく、機械的に自動生成されたものです。
Google ダジャレサーチ β は、サイトの説明にあるように、OyajiBot, BakaUke, KudaRank の三つのシステムで構成されています。 ●OyajiBot: OyajiBot は、Web 上から、それなりの長さでかつそれ自身でおもしろみのある文を見つけてくるシステムです。Google の分散処理システム MapReduce を使って、世界中のWeb 上のドキュメントから探してきています。﹁面白いけどしつこくない﹂といった文がこの段階で見つかります ●BakaUke: BakaUke は、ユーザーの検索キーワードと OyajiBot が見つけた文を無理やりつなげてダジャレの候補を生成するシステムです。たとえば、﹁国内線﹂と﹁面白いけどしつこくない﹂をつなげて、﹁面白いけどシツコクナイセン﹂というダジャレ候補が作られます。 ●KudaRank: BakaUke は一度に大量の候補を作り出します。KudaRank はそれらをランキングし、もっともくだらないダジャレを見つけます。検索キーワードと文の構文的・意味的な不整合等を考慮しながら機械学習アルゴリズムが適切に!?ランキングします 人手の介在がないため、微妙にこなれていないダジャレが生成されてしまうのですが、それはそれで面白みがあります。
そもそも、このダジャレサーチは Google の﹁20% ルール﹂からスタートしました。︵ Google の﹁20% ルール﹂とは、勤務時間の 20% を自分の好きなことに使ってよい、という世界共通の社内ルールです。︶ もともと自然言語処理を 専門としていたので、その経験を生かした面白いことができないかと思い、ダジャレサーチを思いつきました。昨年末、Tokyo Engineering Hackathon という一泊二日の(主に 20% ルールのための)開発合宿をエンジニアどうしで行い、そのまとまった時間を利用してシステムを作りました。その後、社内でデモをする機会があり、(日本語 がわからないであろう) Moutain View のエンジニアを含む多くの同僚から様々なフィードバックとサポートをいただきながら、エイプリルフールのリリースとなりました。Gmail をはじめ、Google のプロダクトにはこの﹁20% ルール﹂から生まれたものがたくさんあります。
Google ダジャレサーチは今後どうなるか未定ですが、またいつの日か皆様にお披露目できる機会があればうれしいです。