[4ページ] オープンデータの最新人気記事 224件

121 - 160 件 / 224件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

オープンデータの検索結果121 - 160 件 / 224件

AIモデル評価用データセットに多数の誤り、実は優秀ではなかった？
- 20 users
- www.technologyreview.jp
- テクノロジー
- 2021/04/05
MITの研究者が、人工知能（AI）の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05 272 73 20 23 人工知能（AI）の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学（MIT）の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知
- 機械学習
- HotEntry
- 人工知能
- AI
- news
- あとで読む
国交省が東京23区の3Dモデルを無料配布　「東京が舞台のゲームやVRが作れる」「卒制でお世話になる人いそう」（ねとらぼ） - Yahoo!ニュース
- 356 users
- news.yahoo.co.jp
- 世の中
- 2021/03/30
国土交通省は3月26日、現実の都市をサイバー空間に再現する3D都市モデルのオープンデータ化事業「Project PLATEAU（プラトー）」にて、全国56都市の3D都市モデルの整備を完了したと発表しました。これに伴い公式Webサイトをリリース、東京都23区の3D都市モデルのオープンデータを公開しました。【画像を見る】「Project PLATEAU」 3D都市モデルとは、その名の通り実世界の都市空間をデジタル上で再現した情報プラットフォームです。これまで各省庁や地方自治体に分散していた建物の情報や人口流動、環境やエネルギーのデータなどを、3次元化した地形データと統合することで、都市計画立案の高度化や都市活動のシミュレーションなどが可能になるとしています。国土交通省は併せて一般社団法人社会基盤情報流通推進協議会と技術協力の協定を締結し、同協議会が運用する「G空間情報センター」にて3D都市
- VR
- あとで読む
- データ
- 東京
- 3D
- 3DCG
- 地図
- 行政
- ニュース
- 素材
国交省、全国56都市の3D都市モデル公開。仮想空間で都市をそのまま再現可能
- 69 users
- pc.watch.impress.co.jp
- テクノロジー
- 2021/03/29
- 3DCG
- VR
- map
- あとで読む
- 地図
- news
- 社会
大阪市立東洋陶磁美術館収蔵品画像オープンデータ
- 18 users
- websites.jmapps.ne.jp
- 暮らし
- 2021/03/26
大阪市立東洋陶磁美術館収蔵品画像オープンデータ「大阪市立東洋陶磁美術館収蔵品画像オープンデータ」で公開している画像は、当館への申請が必要なく、自由にダウンロード、複製、再配布することができます。例えば出版物やウェブサイトへの掲載、講演会等でのスクリーンへの投影、テレビ番組での放送、販売商品への印刷など、営利・非営利に関わらず利用が可能です。
- 美術館
- art
- museum
GitHub - ids-cv/wrime
- 10 users
- github.com/ids-cv
- テクノロジー
- 2021/03/23
Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Estimation based on Writer’s Personality. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: Student Research Workshop (AACL-SRW 2022), pp.1-
NHKが持っているデータをオープンに　1人のエンジニアの熱がオールドメディアを根幹から変えるかもしれないよ｜NHK取材ノート
- 522 users
- note.com/nhk_syuzai
- テクノロジー
- 2021/02/25
毎日めまぐるしく変わる新型コロナウイルスのデータを、24時間いつでも、誰にでも、わかりやすく伝えることは簡単ではありません。 NHKの新型コロナウイルス特設サイトの担当エンジニアとして奮闘しているのがこの「ジャージ男」。テクニカルディレクターの斉藤一成くんです。サッカー好きの彼のことをここでは「カズ」と呼ばせてもらいます。 NHKのエンジニアのほとんどは「放送」に関わる仕事をしていますが、そのなかでカズはウェブ周りのシステムの設計から開発、運用までを手がけるいわゆる「フルスタック」のエンジニアとして異彩を放ちまくっています。「できるものはすべてオープンにしたい」というカズの提案で去年12月に始まったのが、NHKのサイトにある新型コロナ感染者のデータを誰でも自由にダウンロードできる取り組みです。下のページにアクセスするとグラフの下に「データーのダウンロードはこちら」というリンクがあるのが
- NHK
- あとで読む
- エンジニア
- データ
- メディア
- 開発
- COVID-19
- オープンデータ
- 報道
- media
クラウド（AWS／Azure／GCP／IBM）で手軽に使えるオープンデータセット
- 40 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/02/08
4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。連載目次 AWS／Azure／GCP／IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧／検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。 Registry of Open Data on AWS
Papers with Code - Machine Learning Datasets
- 65 users
- paperswithcode.com
- 学び
- 2021/02/03
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
Wiki-40B：高品質に加工された、40以上の言語のWikipediaデータセット
- 21 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/01/20
Wiki-40B：高品質に加工された、40以上の言語のWikipediaデータセット：AI・機械学習のデータセット辞典データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 32 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます！とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ
Use Case | 3D都市モデルを活用したソリューション開発の事例紹介 | PLATEAU [プラトー]
- 5 users
- www.mlit.go.jp
- 世の中
- 2020/12/23
Field防災・防犯環境・エネルギーモビリティ・ロボティクスその他モニタリング洪水エリアマネジメント衛星市民参加インフラ管理開発許可地震土砂災害交通ID連携都市計画・まちづくり自動運転地域活性化・観光データ作成 Tags可視化OpenFOAMCesiumJSシミュレーションCFDデジタルツインGISThree.jsUnreal EngineUnityAR/VRVPSROSArcGISダッシュボードPostGISAIIoTQGISPyTorchOpenCVゲーミフィケーションReactドローンTerriaJS人流データSLAMROS2BlenderジオコーディングLinked Open DataRDFARCoreOmniverseUE4CesiumForUnrealAR.jsBabylon.js
- PLATEAU
- あとで読む
PLATEAU VIEW 3.0
- 45 users
- plateauview.mlit.go.jp
- 暮らし
- 2020/12/22
PLATEAUは、国土交通省が主導する、日本全国の3D都市モデルの整備・活用・オープンデータ化プロジェクトです。PLATEAU VIEWでは、3D都市モデルをウェブ上で可視化できます。
- map
- 地図
- オープンデータ
- 3d
- web
PLATEAU VIEW App | 3D都市モデルをWEBで体感する | PLATEAU [プラトー]
- 17 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
PLATEAU VIEW は、PLATEAU のデータをプレビューできる、ブラウザベースのWebアプリケーションです。デジタル空間上に再現された都市をあらゆる角度から観察でき、空間上に情報のレイヤーを自由に重ねることで、これまでのデータでは気づき得なかった新たな視点に出会えることでしょう。
- PLATEAU
- アプリ
- 3D
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 835 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- データ
- 国土交通省
- GIS
- web
欧州原子核研究機構（CERN）、オープンサイエンスの高まりに対応した新たなオープンデータポリシーを発表
- 3 users
- current.ndl.go.jp
- 学び
- 2020/12/18
ソフォスらが2000万件のデータセットを公開、マルウェア検出の機械学習モデル開発目指す
- 4 users
- www.itmedia.co.jp
- テクノロジー
- 2020/12/17
Sophos AIとReversingLabsがマルウェア検出の機械学習モデル発見につながる2000万のデータセットを公開した。マルウェアに関する、整備済みの大規模なデータセットが広く公開されたことで業界全体でマルウェア検出機能強化につながる可能性がある。
民間の立場から、中野区のオープンデータ推進に取り組んでみた話｜watambo
- 23 users
- note.com/viking
- 政治と経済
- 2020/12/17
こんにちは、@watamboです。本業では人材系企業に所属しており、プライベートは主に子育てと、行政データを整備・活用する「キカク」という会社をやっています。今年の7月頃にこんなツイートをし、その結果多くの人にRTやFavをいただいたことがありました。行政が保有するオープンデータを整備し、使いやすくする会社をやっていて、今は許認可に関するデータを集める取り組みをしています。1都3県については、データベース運用を開始できているのですが、中野区だけデータの提供に180万円ほどかかると言われてしまい、まだデータをもらえていない状況です。 pic.twitter.com/XfSTci1tyM — 渡邊亮輔 (@watambo) July 13, 2020 実はこの件、去年の11月頃に始まったことです・・・。ただ、1年かけて、ようやく解決の糸口が見えてきました。今日はこれまで取り組んだことを
- 行政
- データ
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 22 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
- 機械学習
- 自然言語処理
- NLP
- あとで読む
- Dataset
- HotEntry
- 学習
- 勉強
GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット
- 22 users
- github.com/stockmarkteam
- テクノロジー
- 2020/12/15
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 85 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
Food-101：料理カラー写真（アップルパイや餃子など）の画像データセット
- 4 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/12/02
連載目次データセット解説 Food-101データセット（The Food-101 Data Set）（以下、Food-101）は、101種類の「料理カラー写真」（アップルパイや餃子など）の画像データセットである（図1、元データは「foodspotting.com」だが、現在ではサイト自体が存在しないようである）。 class_names = [ 'Apple pie', # 0：アップルパイ 'Baby back ribs', # 1：ベビーバックリブ 'Baklava', # 2：バクラバ 'Beef carpaccio', # 3：牛肉のカルパッチョ 'Beef tartare', # 4：牛肉のタルタル 'Beet salad', # 5：ビートサラダ 'Beignets', # 6：ベニエ 'Bibimbap', # 7：ビビンバ 'Bread pudding',
AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
- 245 users
- ledge.ai
- テクノロジー
- 2020/11/20
アマゾンウェブサービスジャパン株式会社（Amazon Web Services、AWS）は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙（ごい）データに加えた、と公式ブログで明らかにした。多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
- mecab
- あとで読む
- aws
- python
- 形態素解析
- 自然言語処理
- nlp
- 学習
- データ
オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 | 宙畑
- 13 users
- sorabatake.jp
- テクノロジー
- 2020/11/18
オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】「【事例付き】ビッグデータ時代に持つべき”データ活用に必要な視点”とは」にて、オープンデータの今とこれからをオープンデータ伝道師の福野さんにインタビューした内容を掲載しました。本記事では、オープンデータについてさらに調査を進め、どのような活用事例があるのか、また、世の中にどのようなオープンデータがあるのかをまとめました。無料のオープンデータがビジネスをアップデートする、その面白さをご紹介できればと思います。 (1)オープンデータとはまず、本題に入る前にオープンデータとは何かという定義から紹介します。「OPEN DATA HANDBOOK」を見ると、オープンデータとは、「自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのこと」とあります。また、オープンデータとして「
- データ
- 統計
- 無料
- サービス
- アプリ
Japan: COVID-19 Public Forecasts
- 164 users
- datastudio.google.com
- テクノロジー
- 2020/11/17
Looker Studio turns your data into informative dashboards and reports that are easy to read, easy to share, and fully customizable.
- COVID-19
- google
- 機械学習
- AI
- webサービス
- 健康
- 予測
- あとで読む
- コロナウイルス
- 社会
Open Images Dataset：Googleによる膨大な画像データセット
- 36 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/11/11
データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。
- Google
- オープンデータ
- あとで読む
- 機械学習
- dataset
- AI
- tech
データ共同利用権（仮称）について（案）（宮田教授提出資料）（PDF／170KB）
- 24 users
- www.kantei.go.jp
- テクノロジー
- 2020/11/09
- pdf
- law
- IT
- あとで読む
- 社会
星暁雄 on Twitter: "日本政府が進める「デジタル庁」のプロジェクトのため、IT基本法改正の議論が始まっている。ここで議論を呼ぶ提案が出てきた。「（仮称）データ共同利用権」というものだ。これに対して、鈴木正朝氏は強く反対意見を表明している"
- 284 users
- twitter.com/AkioHoshi
- 政治と経済
- 2020/11/08
日本政府が進める「デジタル庁」のプロジェクトのため、IT基本法改正の議論が始まっている。ここで議論を呼ぶ提案が出てきた。「（仮称）データ共同利用権」というものだ。これに対して、鈴木正朝氏は強く反対意見を表明している。いった… https://t.co/51R7hmuUqX
- プライバシー
- あとで読む
- 政治
- IT
- セキュリティ
- 法律
- 法
- Twitter
- 自民党
- 個人情報
CC-100: Monolingual Datasets from Web Crawl Data
- 13 users
- data.statmt.org
- テクノロジー
- 2020/11/02
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b
- 自然言語処理
- dataset
気象庁の震源データを3Dで展開 - Qiita
- 3 users
- qiita.com/UsagiLabo
- テクノロジー
- 2020/10/30
注意：Safariは仕様変更があったため現在閲覧できません。気象庁は観測した震源情報を公開しており、この震源データの3D表示を試みた。気象庁 | 震源データはじめに気象庁はウェブページ上で1919年以降の震源データを公開している。震源データはASCIIで1行1震源、固有フォーマットで表現され、1983年以降はほぼ1年分1ファイルで提供される。東北地方太平洋沖地震が発生した2011年のファイルにはは約30万件のデータが含まれ、その容量は約30MBである（元データの総容量は約370MB）。予めファイル形式「点群PNG」でデータを整理した上で、Three.jsを用いて震源位置を3Dでプロットすることを試みた。開発したアプリケーション気象庁震源データ3Dプロット 3Dモデルはマウス操作で自由に視点位置を変更することができる。赤枠内の操作ボタンにより表示に関する各種設定を変更することが出
- Qiita
- 統計
画像データをキーワード検索で効率的に収集する方法（Python「icrawler」のBing検索）
- 27 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/10/28
画像データをキーワード検索で効率的に収集する方法（Python「icrawler」のBing検索）：AI・機械学習のデータセット辞典 Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。連載目次機械学習などで画像データを使いたい場合に、既存のオープンデータセットを活用できれば手軽に済む。しかし既存のものが存在しない場合には自分でデータセットを作る必要があるだろう。画像を集める際に活用したいのがWeb検索エンジンではないだろうか。実際にGoogleなどで画像検索を行って1つずつ手動で収集することも不可能ではないが、できればプログラムを使ってある程度は自動化したい。そのようなニーズにマッチするPythonライブラリ「icrawler」があるので、本稿ではその使い方を紹介する。 icr
- Python
- 画像
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
- 27 users
- www.recruit.co.jp
- テクノロジー
- 2020/10/19
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル（本社：東京都千代田区、代表取締役社長：淺野健、以下リクルートライフスタイル）が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。日本語の自然言語処理における課題自然言語処理とは、私たちが日常的に使っている言語（自然言語）をコンピューターに解析させる一連の処理を指し
- nlp
- 日本語
- 研究
- あとで読む
QMNIST：手書き数字の画像データセット（MNIST改良版）
- 6 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/10/14
図1　QMNISTに含まれる「手書き数字」の例 ※データセットの配布元：「facebookresearch/qmnist: The QMNIST dataset」。BSDライセンス。 ※出典： Cold Case: The Lost MNIST Digits. Chhavi Yadav, Léon Bottou. arXiv:1905.10498 QMNISTは、MNISTの改良版／再構築版として、NIST Special Database 19から抽出＆加工して作られたサブセットである。MNISTの代わりとして、主に画像認識を目的としたディープラーニング／機械学習の研究や初心者向けチュートリアルで使われることが想定される。中身の画像データやラベルはMNISTデータセット（以下、MNIST）とほぼ同じであるが、が異なる。まず6万件に増やした理由については、論文「Cold Case:
- 機械学習
- HotEntry
EMNIST：手書きアルファベット＆数字の画像データセット
- 18 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/09/28
図1　EMNIST ByClassに含まれる「手書き文字」の例 ※データセットの配布元：「The EMNIST Dataset | NIST」。 ※出典： EMNIST: an extension of MNIST to handwritten letters. Han Xiao, Cohen, G., Afshar, S., Tapson, J., & van Schaik, A. arXiv:1702.05373 EMNISTは、MNISTの拡張版（an Extension of MNIST to handwritten letters）として、NIST Special Database 19から抽出＆加工して作られたサブセットである。主に画像認識を目的としたディープラーニング／機械学習の研究や初心者向けチュートリアルで使われることが意識されている。そのため、MNISTは「0」～「9
- あとで読む
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
- 176 users
- hironsan.hatenablog.com
- テクノロジー
- 2020/09/26
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
新型コロナウイルスのオープンデータサイト集 | リサーチ・ナビ | 国立国会図書館
- 9 users
- rnavi.ndl.go.jp
- 世の中
- 2020/09/24
公的機関では新型コロナウイルスに関する二次利用が可能なデジタルデータ（オープンデータ）を提供していることがあります。このページでは、新型コロナウイルスに関する公的機関のオープンデータおよびオープンデータの利活用事例を探せるウェブサイトのうち、主要なものを取り上げて紹介します。利用条件は、各ウェブサイトをご覧ください。 1. 世界OECD　Open data in action: initiatives during the initial stage of the COVID-19 pandemic 新型コロナウイルスに関するオープンデータの利活用事例集です。 OPSI COVID-19 Innovative Response Tracker/Open Dataは、利活用事例を視覚的に展望することができます。米国共通役務庁　DATA.GOV キーワードでデータセットを検索することができ
- COVID-19
- techfeed
- health
Reuters newswire：ロイターのニュース記事のトピック分類データセット
- 5 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/09/16
連載目次データセット解説 Reuters newswire classification dataset（ロイターのニュースワイヤー分類データセット。以下、Reuters newswire）は、ニュース配信テキストが「46分野のどのトピックに該当するか」を判定するために使える、テキスト分類／文書分類用データセットである（図1、詳細は後述するがReuters-21578のサブセットとなっている）。図1　Reuters newswireデータセットの内容例 ※元々のデータセットの配布元： David D. Lewis氏のサイト「Reuters-21578 Text Categorization Test Collection」。また、UCI Machine Learning Repository「Reuters-21578 Text Categorization Collection Da
- オープンデータ
ImageNet：大規模なカラー写真の画像データベース
- 19 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/09/08
連載目次データセット解説 ImageNetは、1400万枚以上もあるほど大規模な、「カラー写真」の教師ラベル付き画像データベースである。その教師ラベルは、WordNet階層*1に基づいて付与されている。スタンフォード大学のフェイフェイ・リ（Fei-Fei Li）氏を中心とした研究グループが管理しており、世界中の研究者や教育／学びに役立ててもらうためのリソースとして公開されている。 *1　WordNetとは、英語の語彙（ごい）データベースであり、synsetと呼ばれる「同義語（synonyms）セット」がツリー階層構造でグループを形成しながら定義されているのが特徴である。ImageNetでは2万以上のsynsetが採用されている。 ImageNetの歴史的な重要性 ImageNetは、歴史的に非常に有名である。2012年に開催されたImageNetの大規模画像認識コンペ「ILSVRC（Im
横浜市IRに関するパブコメのテキスト分析 - Qiita
- 4 users
- qiita.com/niship2
- テクノロジー
- 2020/09/01
0.はじめに「広報よこはま」８月号が投函されていたので、早速読む。いつも家計相談で「えっ２人で月の食費が５万円ってたかすぎるの！？」など参考にさせてもらっていて楽しく読んでいた。今月は横浜市IRのパブコメ（今年の４月ころにやっていたんですね）についての記事があったので、見てみると、パブコメが1万件ほど寄せられたとのこと。パブコメにこんなにコメント寄せられることは少ないと思われるので、生データないかな～と思って見てみるとあった！生のテキストデータは、誹謗中傷などの情報を加工後に公開されていた。横浜市は、パブコメの論点を５つほどに分類していたけど、もっと論点あるんじゃないか、とか、パブコメをもとに修正した「横浜ＩＲ（統合型リゾート）の方向性（案）」にどんな意見が反映されたんだろうかなどと思ったので、とりあえず基本的な分析をやってみることに。 1.パブコメまとめ報告書に記載されてい
Engadget | Technology News & Reviews
- 231 users
- www.engadget.com
- テクノロジー
- 2020/08/21
iPad Air M2 hands-on: A big-screen iPad that doesn't break the bank
- microsoft
- game
- ネタ
- ゲーム
- データ
- あとで読む
- airplane
- 観光
無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録
- 1454 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/08/20
- 地図
- データ
- あとで読む
- 住所
- データベース
- 不動産
- map
- 開発
- gis
- data