並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 224件

新着順 人気順

オープンデータの検索結果121 - 160 件 / 224件

  • AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

    MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05 272 73 20 23 人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。 データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知

      AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
    • 国交省が東京23区の3Dモデルを無料配布 「東京が舞台のゲームやVRが作れる」「卒制でお世話になる人いそう」(ねとらぼ) - Yahoo!ニュース

      国土交通省は3月26日、現実の都市をサイバー空間に再現する3D都市モデルのオープンデータ化事業「Project PLATEAU(プラトー)」にて、全国56都市の3D都市モデルの整備を完了したと発表しました。これに伴い公式Webサイトをリリース、東京都23区の3D都市モデルのオープンデータを公開しました。 【画像を見る】「Project PLATEAU」 3D都市モデルとは、その名の通り実世界の都市空間をデジタル上で再現した情報プラットフォームです。これまで各省庁や地方自治体に分散していた建物の情報や人口流動、環境やエネルギーのデータなどを、3次元化した地形データと統合することで、都市計画立案の高度化や都市活動のシミュレーションなどが可能になるとしています。 国土交通省は併せて一般社団法人社会基盤情報流通推進協議会と技術協力の協定を締結し、同協議会が運用する「G空間情報センター」にて3D都市

        国交省が東京23区の3Dモデルを無料配布 「東京が舞台のゲームやVRが作れる」「卒制でお世話になる人いそう」(ねとらぼ) - Yahoo!ニュース
      • 国交省、全国56都市の3D都市モデル公開。仮想空間で都市をそのまま再現可能

          国交省、全国56都市の3D都市モデル公開。仮想空間で都市をそのまま再現可能
        • 大阪市立東洋陶磁美術館収蔵品画像オープンデータ

          大阪市立東洋陶磁美術館収蔵品画像オープンデータ 「大阪市立東洋陶磁美術館収蔵品画像オープンデータ」で公開している画像は、当館への申請が必要なく、自由にダウンロード、複製、再配布することができます。例えば出版物やウェブサイトへの掲載、講演会等でのスクリーンへの投影、テレビ番組での放送、販売商品への印刷など、営利・非営利に関わらず利用が可能です。

          • GitHub - ids-cv/wrime

            Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Estimation based on Writer’s Personality. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: Student Research Workshop (AACL-SRW 2022), pp.1-

              GitHub - ids-cv/wrime
            • NHKが持っているデータをオープンに 1人のエンジニアの熱がオールドメディアを根幹から変えるかもしれないよ|NHK取材ノート

              毎日めまぐるしく変わる新型コロナウイルスのデータを、24時間いつでも、誰にでも、わかりやすく伝えることは簡単ではありません。 NHKの新型コロナウイルス特設サイトの担当エンジニアとして奮闘しているのがこの「ジャージ男」。テクニカルディレクターの斉藤一成くんです。サッカー好きの彼のことをここでは「カズ」と呼ばせてもらいます。 NHKのエンジニアのほとんどは「放送」に関わる仕事をしていますが、そのなかでカズはウェブ周りのシステムの設計から開発、運用までを手がけるいわゆる「フルスタック」のエンジニアとして異彩を放ちまくっています。 「できるものはすべてオープンにしたい」というカズの提案で去年12月に始まったのが、NHKのサイトにある新型コロナ感染者のデータを誰でも自由にダウンロードできる取り組みです。 下のページにアクセスするとグラフの下に「データーのダウンロードはこちら」というリンクがあるのが

                NHKが持っているデータをオープンに 1人のエンジニアの熱がオールドメディアを根幹から変えるかもしれないよ|NHK取材ノート
              • クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセット

                4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。 連載目次 AWS/Azure/GCP/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。 Registry of Open Data on AWS

                  クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセット
                • Papers with Code - Machine Learning Datasets

                  CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no

                    Papers with Code - Machine Learning Datasets
                  • Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット

                    Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット:AI・機械学習のデータセット辞典 データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。

                      Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット
                    • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                      ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

                        Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                      • Use Case | 3D都市モデルを活用したソリューション開発の事例紹介 | PLATEAU [プラトー]

                        Field防災・防犯環境・エネルギーモビリティ・ロボティクスその他モニタリング洪水エリアマネジメント衛星市民参加インフラ管理開発許可地震土砂災害交通ID連携都市計画・まちづくり自動運転地域活性化・観光データ作成 Tags可視化OpenFOAMCesiumJSシミュレーションCFDデジタルツインGISThree.jsUnreal EngineUnityAR/VRVPSROSArcGISダッシュボードPostGISAIIoTQGISPyTorchOpenCVゲーミフィケーションReactドローンTerriaJS人流データSLAMROS2BlenderジオコーディングLinked Open DataRDFARCoreOmniverseUE4CesiumForUnrealAR.jsBabylon.js

                          Use Case | 3D都市モデルを活用したソリューション開発の事例紹介 | PLATEAU [プラトー]
                        • PLATEAU VIEW 3.0

                          PLATEAUは、国土交通省が主導する、日本全国の3D都市モデルの整備・活用・オープンデータ化プロジェクトです。PLATEAU VIEWでは、3D都市モデルをウェブ上で可視化できます。

                            PLATEAU VIEW 3.0
                          • PLATEAU VIEW App | 3D都市モデルをWEBで体感する | PLATEAU [プラトー]


                            PLATEAU VIEW PLATEAU Web 
                              PLATEAU VIEW App | 3D都市モデルをWEBで体感する | PLATEAU [プラトー]
                            • PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト

                              3D都市モデルが実装されることで、未来はどのような展望を見せるのか。 インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。

                                PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
                              • 欧州原子核研究機構(CERN)、オープンサイエンスの高まりに対応した新たなオープンデータポリシーを発表

                                  欧州原子核研究機構(CERN)、オープンサイエンスの高まりに対応した新たなオープンデータポリシーを発表
                                • ソフォスらが2000万件のデータセットを公開、マルウェア検出の機械学習モデル開発目指す

                                  Sophos AIとReversingLabsがマルウェア検出の機械学習モデル発見につながる2000万のデータセットを公開した。マルウェアに関する、整備済みの大規模なデータセットが広く公開されたことで業界全体でマルウェア検出機能強化につながる可能性がある。

                                    ソフォスらが2000万件のデータセットを公開、マルウェア検出の機械学習モデル開発目指す
                                  • 民間の立場から、中野区のオープンデータ推進に取り組んでみた話|watambo

                                    こんにちは、@watamboです。本業では人材系企業に所属しており、プライベートは主に子育てと、行政データを整備・活用する「キカク」という会社をやっています。 今年の7月頃にこんなツイートをし、その結果多くの人にRTやFavをいただいたことがありました。 行政が保有するオープンデータを整備し、使いやすくする会社をやっていて、今は許認可に関するデータを集める取り組みをしています。1都3県については、データベース運用を開始できているのですが、中野区だけデータの提供に180万円ほどかかると言われてしまい、まだデータをもらえていない状況です。 pic.twitter.com/XfSTci1tyM — 渡邊 亮輔 (@watambo) July 13, 2020 実はこの件、去年の11月頃に始まったことです・・・。 ただ、1年かけて、ようやく解決の糸口が見えてきました。今日はこれまで取り組んだことを

                                      民間の立場から、中野区のオープンデータ推進に取り組んでみた話|watambo
                                    • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                      ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                        Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                      • GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット
                                        • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                          ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                            Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                          • Food-101:料理カラー写真(アップルパイや餃子など)の画像データセット

                                            連載目次 データセット解説 Food-101データセット(The Food-101 Data Set)(以下、Food-101)は、101種類の「料理カラー写真」(アップルパイや餃子など)の画像データセットである(図1、元データは「foodspotting.com」だが、現在ではサイト自体が存在しないようである)。 class_names = [ 'Apple pie',  # 0:アップルパイ 'Baby back ribs',  # 1:ベビーバックリブ 'Baklava',  # 2:バクラバ 'Beef carpaccio',  # 3:牛肉のカルパッチョ 'Beef tartare',  # 4:牛肉のタルタル 'Beet salad',  # 5:ビートサラダ 'Beignets',  # 6:ベニエ 'Bibimbap',  # 7:ビビンバ 'Bread pudding',

                                              Food-101:料理カラー写真(アップルパイや餃子など)の画像データセット
                                            • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                                              アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                                                AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
                                              • オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 | 宙畑

                                                オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 「【事例付き】ビッグデータ時代に持つべき”データ活用に必要な視点”とは」にて、オープンデータの今とこれからをオープンデータ伝道師の福野さんにインタビューした内容を掲載しました。 本記事では、オープンデータについてさらに調査を進め、どのような活用事例があるのか、また、世の中にどのようなオープンデータがあるのかをまとめました。 無料のオープンデータがビジネスをアップデートする、その面白さをご紹介できればと思います。 (1)オープンデータとは まず、本題に入る前にオープンデータとは何かという定義から紹介します。 「OPEN DATA HANDBOOK」を見ると、オープンデータとは、「自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのこと」とあります。また、オープンデータとして「

                                                  オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 | 宙畑
                                                • Japan: COVID-19 Public Forecasts

                                                  Looker Studio turns your data into informative dashboards and reports that are easy to read, easy to share, and fully customizable.

                                                    Japan: COVID-19 Public Forecasts
                                                  • Open Images Dataset:Googleによる膨大な画像データセット

                                                    データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

                                                      Open Images Dataset:Googleによる膨大な画像データセット
                                                    • データ共同利用権(仮称)について(案)(宮田教授提出資料)(PDF/170KB)

                                                      • 星 暁雄 on Twitter: "日本政府が進める「デジタル庁」のプロジェクトのため、IT基本法改正の議論が始まっている。 ここで議論を呼ぶ提案が出てきた。「(仮称)データ共同利用権」というものだ。これに対して、鈴木正朝氏は強く反対意見を表明している"

                                                        日本政府が進める「デジタル庁」のプロジェクトのため、IT基本法改正の議論が始まっている。 ここで議論を呼ぶ提案が出てきた。「(仮称)データ共同利用権」というものだ。これに対して、鈴木正朝氏は強く反対意見を表明している。 いった… https://t.co/51R7hmuUqX

                                                          星 暁雄 on Twitter: "日本政府が進める「デジタル庁」のプロジェクトのため、IT基本法改正の議論が始まっている。 ここで議論を呼ぶ提案が出てきた。「(仮称)データ共同利用権」というものだ。これに対して、鈴木正朝氏は強く反対意見を表明している"
                                                        • CC-100: Monolingual Datasets from Web Crawl Data

                                                          This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                                          • 気象庁の震源データを3Dで展開 - Qiita

                                                            注意:Safariは仕様変更があったため現在閲覧できません。 気象庁は観測した震源情報を公開しており、この震源データの3D表示を試みた。 気象庁 | 震源データ はじめに 気象庁はウェブページ上で1919年以降の震源データを公開している。震源データはASCIIで1行1震源、固有フォーマットで表現され、1983年以降はほぼ1年分1ファイルで提供される。東北地方太平洋沖地震が発生した2011年のファイルにはは約30万件のデータが含まれ、その容量は約30MBである(元データの総容量は約370MB)。予めファイル形式「点群PNG」でデータを整理した上で、Three.jsを用いて震源位置を3Dでプロットすることを試みた。 開発したアプリケーション 気象庁震源データ3Dプロット 3Dモデルはマウス操作で自由に視点位置を変更することができる。赤枠内の操作ボタンにより表示に関する各種設定を変更することが出

                                                              気象庁の震源データを3Dで展開 - Qiita
                                                            • 画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索)

                                                              画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索):AI・機械学習のデータセット辞典 Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。 連載目次 機械学習などで画像データを使いたい場合に、既存のオープンデータセットを活用できれば手軽に済む。しかし既存のものが存在しない場合には自分でデータセットを作る必要があるだろう。画像を集める際に活用したいのがWeb検索エンジンではないだろうか。 実際にGoogleなどで画像検索を行って1つずつ手動で収集することも不可能ではないが、できればプログラムを使ってある程度は自動化したい。そのようなニーズにマッチするPythonライブラリ「icrawler」があるので、本稿ではその使い方を紹介する。 icr

                                                                画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索)
                                                              • リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ

                                                                リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村吉弘、以下リクルート)は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル(本社:東京都千代田区、代表取締役社長:淺野 健、以下リクルートライフスタイル)が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。 日本語の自然言語処理における課題 自然言語処理とは、私たちが日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し

                                                                  リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
                                                                • QMNIST:手書き数字の画像データセット(MNIST改良版)

                                                                  図1 QMNISTに含まれる「手書き数字」の例 ※データセットの配布元: 「facebookresearch/qmnist: The QMNIST dataset」。BSDライセンス。 ※出典: Cold Case: The Lost MNIST Digits. Chhavi Yadav, Léon Bottou. arXiv:1905.10498 QMNISTは、MNISTの改良版/再構築版として、NIST Special Database 19から抽出&加工して作られたサブセットである。MNISTの代わりとして、主に画像認識を目的としたディープラーニング/機械学習の研究や初心者向けチュートリアルで使われることが想定される。 中身の画像データやラベルはMNISTデータセット(以下、MNIST)とほぼ同じであるが、 が異なる。 まず6万件に増やした理由については、論文「Cold Case:

                                                                    QMNIST:手書き数字の画像データセット(MNIST改良版)
                                                                  • EMNIST:手書きアルファベット&数字の画像データセット

                                                                    図1 EMNIST ByClassに含まれる「手書き文字」の例 ※データセットの配布元: 「The EMNIST Dataset | NIST」。 ※出典: EMNIST: an extension of MNIST to handwritten letters. Han Xiao, Cohen, G., Afshar, S., Tapson, J., & van Schaik, A. arXiv:1702.05373 EMNISTは、MNISTの拡張版(an Extension of MNIST to handwritten letters)として、NIST Special Database 19から抽出&加工して作られたサブセットである。主に画像認識を目的としたディープラーニング/機械学習の研究や初心者向けチュートリアルで使われることが意識されている。そのため、MNISTは「0」~「9

                                                                      EMNIST:手書きアルファベット&数字の画像データセット
                                                                    • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

                                                                      最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

                                                                        Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
                                                                      • 新型コロナウイルスのオープンデータサイト集 | リサーチ・ナビ | 国立国会図書館

                                                                        公的機関では新型コロナウイルスに関する二次利用が可能なデジタルデータ(オープンデータ)を提供していることがあります。 このページでは、新型コロナウイルスに関する公的機関のオープンデータおよびオープンデータの利活用事例を探せるウェブサイトのうち、主要なものを取り上げて紹介します。利用条件は、各ウェブサイトをご覧ください。 1. 世界OECD Open data in action: initiatives during the initial stage of the COVID-19 pandemic 新型コロナウイルスに関するオープンデータの利活用事例集です。 OPSI COVID-19 Innovative Response Tracker/Open Dataは、利活用事例を視覚的に展望することができます。米国 共通役務庁 DATA.GOV キーワードでデータセットを検索することができ

                                                                          新型コロナウイルスのオープンデータサイト集 | リサーチ・ナビ | 国立国会図書館
                                                                        • Reuters newswire:ロイターのニュース記事のトピック分類データセット

                                                                          連載目次 データセット解説 Reuters newswire classification dataset(ロイターのニュースワイヤー分類データセット。以下、Reuters newswire)は、ニュース配信テキストが「46分野のどのトピックに該当するか」を判定するために使える、テキスト分類/文書分類用データセットである(図1、詳細は後述するがReuters-21578のサブセットとなっている)。 図1 Reuters newswireデータセットの内容例 ※元々のデータセットの配布元: David D. Lewis氏のサイト「Reuters-21578 Text Categorization Test Collection」。また、UCI Machine Learning Repository「Reuters-21578 Text Categorization Collection Da

                                                                            Reuters newswire:ロイターのニュース記事のトピック分類データセット
                                                                          • ImageNet:大規模なカラー写真の画像データベース

                                                                            連載目次 データセット解説 ImageNetは、1400万枚以上もあるほど大規模な、「カラー写真」の教師ラベル付き画像データベースである。その教師ラベルは、WordNet階層*1に基づいて付与されている。スタンフォード大学のフェイフェイ・リ(Fei-Fei Li)氏を中心とした研究グループが管理しており、世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開されている。 *1 WordNetとは、英語の語彙(ごい)データベースであり、synsetと呼ばれる「同義語(synonyms)セット」がツリー階層構造でグループを形成しながら定義されているのが特徴である。ImageNetでは2万以上のsynsetが採用されている。 ImageNetの歴史的な重要性 ImageNetは、歴史的に非常に有名である。2012年に開催されたImageNetの大規模画像認識コンペ「ILSVRC(Im

                                                                              ImageNet:大規模なカラー写真の画像データベース
                                                                            • 横浜市IRに関するパブコメのテキスト分析 - Qiita

                                                                              0.はじめに 「広報よこはま」8月号が投函されていたので、早速読む。いつも家計相談で「えっ2人で月の食費が5万円ってたかすぎるの!?」など参考にさせてもらっていて楽しく読んでいた。今月は横浜市IRのパブコメ(今年の4月ころにやっていたんですね)についての記事があったので、見てみると、パブコメが1万件ほど寄せられたとのこと。パブコメにこんなにコメント寄せられることは少ないと思われるので、 生データないかな~と思って見てみるとあった! 生のテキストデータは、誹謗中傷などの情報を加工後に公開されていた。 横浜市は、パブコメの論点を5つほどに分類していたけど、 もっと論点あるんじゃないか、とか、 パブコメをもとに修正した「横浜IR(統合型リゾート)の方向性(案)」にどんな意見が反映されたんだろうか などと思ったので、とりあえず基本的な分析をやってみることに。 1.パブコメまとめ報告書に記載されてい

                                                                                横浜市IRに関するパブコメのテキスト分析 - Qiita
                                                                              • Engadget | Technology News & Reviews

                                                                                iPad Air M2 hands-on: A big-screen iPad that doesn't break the bank

                                                                                  Engadget | Technology News & Reviews
                                                                                • 無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録

                                                                                    無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録