エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント11件
- 注目コメント
- 新着コメント
![knok knok](https://cdn.profile-image.st-hatena.com/users/knok/profile.png)
knok
いつdumpされたスナップショットを使うのかの指定は今のところないようだ。バージョン1.3.0しかないっぽい / 論文によると https://www.tensorflow.org/datasets/catalog/wikipedia がソースなので 20200301が元のようだ
![misshiki misshiki](https://cdn.profile-image.st-hatena.com/users/misshiki/profile.png)
misshiki
分量や利用しやすさから自然言語処理ではWikipediaが選ばれることが多いが前処理が面倒。そこで“本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介”とのこと。
![nilab nilab](https://cdn.profile-image.st-hatena.com/users/nilab/profile.png)
nilab
「Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます」
![misshiki misshiki](https://cdn.profile-image.st-hatena.com/users/misshiki/profile.png)
misshiki
分量や利用しやすさから自然言語処理ではWikipediaが選ばれることが多いが前処理が面倒。そこで“本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介”とのこと。
![nilab nilab](https://cdn.profile-image.st-hatena.com/users/nilab/profile.png)
nilab
「Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます」
![nagaichi nagaichi](https://cdn.profile-image.st-hatena.com/users/nagaichi/profile.png)
nagaichi
専門用語が多くてあまり日常会話に出てこないタームに満ちているWikipediaって、そもそも自然言語処理のための機械学習に向いてるテキストなんだろうか。推敲不足の悪文どころか、言語的に壊れた記事も少なくないし。
![knok knok](https://cdn.profile-image.st-hatena.com/users/knok/profile.png)
knok
いつdumpされたスナップショットを使うのかの指定は今のところないようだ。バージョン1.3.0しかないっぽい / 論文によると https://www.tensorflow.org/datasets/catalog/wikipedia がソースなので 20200301が元のようだ
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
いまの話題をアプリでチェック!
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。...
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット﹁Wiki-40B﹂とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー
2020/09/28 リンク