[B! corpus] makoto15のブックマーク

GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus

This is a Japanese text corpus that consists of lead three sentences of web documents with various linguistic annotations. By collecting lead three sentences of web documents, this corpus contains documents with various genres and styles, such as news articles, encyclopedic articles, blogs and commercial pages. It comprises approximately 5,000 documents, which correspond to 15,000 sentences. The l

makoto15 2019/11/07

corpus

リンク

日本語対訳データ

これは、日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください！また、日本語を含まない言語対のリストはほかのサイトでたくさんあります： 1 2 3。日英対訳コーパス以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。名前文数研究用商用説明

makoto15 2017/08/23

リンク

明六雑誌コーパス - 近代語のコーパス

このコーパスのデータを更新したものを、﹃日本語歴史コーパス﹄﹁明治・大正編Ⅰ雑誌﹂の一部として、コーパス検索アプリケーション﹁中納言﹂で公開しています。﹁中納言﹂の利用にはユーザー登録が必要です。︵2016/10/26︶﹃明六雑誌コーパス﹄︵2012年公開︶概要明治初期の学術啓蒙雑誌﹃明六雑誌﹄︵1874～1875年，明六社刊︶全文の形態論情報︵単語情報︶付きコーパスです。記事・引用・文字に関わる情報のほか、文の境界や単語の情報がタグ付けされています。対象は﹃明六雑誌﹄全号の全文です。総語数‥約18万語著者数‥16人 ※　﹃明六雑誌コーパス﹄の詳しい説明は、プロジェクト報告書内の、次の二つの文書を御覧ください。・　﹃明六雑誌コーパス﹄の仕様︵pdf︶・　﹃明六雑誌コーパス﹄の語彙量︵pdf︶利用方法﹃明六雑誌コーパス﹄は、3種類の形式で公開します。以下よりダウンロードし

makoto15 2013/10/25

corpus

リンク

Using a Specialized Corpus to Improve Translation Quality

1 Corpora and corpus analysis tools n the context of Computer Aided Translation Techno logy (CATT), a corpus can be described as a large collection of texts in electronic format. Electronic corpora can be "enriched" by, for example, annotating them with part-of-speech (POS) tagging, and this is especially useful in order to enable researchers to carry out sophisticated linguistic investigations. B

makoto15 2009/01/23

l10n
Corpus

リンク

[を] Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」

Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、というテーマでブログ記事を書いていて、今回で5回目になります。今回はリーズ大学の多言語コーパス検索サイトの話。こういう活動は頭が下がります。なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web ［三省堂辞書サイト］ http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」この連載の第二回[2007-09-03-1]で紹介した拙作「

makoto15 2007/10/16

corpus

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

corpusに関するmakoto15のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

corpusに関するmakoto15のブックマーク (5)

GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus

日本語対訳データ

明六雑誌コーパス - 近代語のコーパス

Using a Specialized Corpus to Improve Translation Quality

[を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

[を] Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」