  • GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus

    This is a Japanese text corpus that consists of lead three sentences of web documents with various linguistic annotations. By collecting lead three sentences of web documents, this corpus contains documents with various genres and styles, such as news articles, encyclopedic articles, blogs and commercial pages. It comprises approximately 5,000 documents, which correspond to 15,000 sentences. The l

  • 日本語対訳データ

    これは、日語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3。 日英 対訳コーパス 以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。 名前文数研究用商用説明

  • 明六雑誌コーパス - 近代語のコーパス

  • Using a Specialized Corpus to Improve Translation Quality

    1 Corpora and corpus analysis tools n the context of Computer Aided Translation Technology (CATT), a corpus can be described as a large collection of texts in electronic format. Electronic corpora can be "enriched" by, for example, annotating them with part-of-speech (POS) tagging, and this is especially useful in order to enable researchers to carry out sophisticated linguistic investigations. B

  • [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

    Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「

