出典: フリー百科事典『ウィキペディア(Wikipedia)』
コーパス︵英: corpus︶は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報︵品詞、統語構造など︶を付与している。言語学以外では﹁全集﹂を意味することもあり、言語学でも日本語を扱う場合には、﹁言語全集﹂﹁名詞全集﹂﹁動詞全集﹂などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。
﹁身体﹂を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora︵コーポラ︶。英語式複数形とした 英語: corpuses の使用も散見される。
大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す﹁KOTONOHA計画﹂をすすめている。
構造化した言語データを﹁一般利用する﹂という観点からは、三省堂がウィズダム英和・和英辞典の用例を﹁用例コーパス﹂として、一時期無料公開していた。
日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン﹃100語でスタート!英会話﹄で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた﹃コーパス100!で英会話﹄が放送されている。
生コーパス[編集]
人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス︵英: raw corpus︶とよぶ。
Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス︵英: balanced corpus︶とよぶ。
翻訳関係にある二文書対を収集したコーパスを対訳コーパス︵英: bilingual corpus︶またはパラレルコーパス︵英: parallel corpus︶、特定のトピックに関する対訳コーパスを 比較可能コーパス︵英: comparable corpus︶とよぶ。
タグ付きコーパス[編集]
言語的な注釈を付与したコーパスを注釈付与コーパス︵英: annotated corpus︶またはタグ付きコーパス︵英: tagged corpus︶と呼ぶ。