アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。 データはAmazon S3上でホストされているので、AWSで