研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ ﹁しょうゆ﹂のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前︵以下、材料名︶の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は﹁豚薄切り肉﹂が名前で、﹁200g﹂が分量です。 さて、この材料名はこのレシピでは﹁豚薄切り肉﹂という表現でした。しかし、他のレシピでは﹁豚うす切り肉﹂という表現かもしれません。﹁豚うすぎり肉﹂や﹁ぶた薄切り肉﹂、﹁豚薄ぎり肉﹂等の表現もありえますね。 これは異表記同義︵いわゆる表記揺れ︶の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
![Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/91929bde03a89e70dc12dfc6adf4148c7f0ef144/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fj%2Fjharashima%2F20171030%2F20171030074621.jpg)