自然言語処理と機械学習の学習データが必要だったため Wikipedia 日本語版 & 英語版の全記事をデータベース化しました。MediaWiki ダンプデータのダウンロード、テキスト抽出 (Wiki記法除外)、カテゴリ抽出などの手間が省けると思います。最新版や他の言語版を入手したい場合は次の章に記述した手順で行ってください。 jawiki-20170801-pages-articles.db.sqlite.bz2 SQLite3 + BZIP2 / 881MB / 1,070,383文書 enwiki-20170801-pages-articles.db.sqlite.bz2 SQLite3 + BZIP2 / 4GB / 5,452,301文書 ﹁エラー。プレビューに問題が発生しました。﹂と出ますがそのままダウンロードしてください。 ファイルは SQLite3DB ファイルのBZIP