[B! データ] nezukuのブックマーク

📙Unicode絵文字の日本語読み/キーワード/分類辞書📙

emoji_jaは、Unicodeに登録されている絵文字に対して、日本語の読みやキーワード、分類を付与したデータセットです。Unicodeで定められている名称やアノテーションを元に構築しています。 TwitterやInstagramなどのSNSを通じた絵文字の普及により、emoji2vecやdeepmojiなどの絵文字を使った自然言語処理の研究が行われるようになりました。絵文字を含む分析においては、絵文字の持つ豊富な情報や多彩な利用方法により、従来の形態素分析などのテキスト処理では対応できない場合があります。例えば、﹁今日は楽しかった😀﹂という文章では感情表現として絵文字が使われていますが、﹁今日は🍣を食べて🍺を飲んだ﹂ではそれぞれの対象を表す単語として用いられることもあります。[佐藤,2015]では絵文字の品詞を名詞/サ変名詞/動詞/副詞/記号/感動詞の6種類に分類しており、形態素

nezuku 2020/07/21

Unicodeの絵文字の日本語読み、キーワード、分類、3種のJSONデータセット / SlackやGitHubのようにコロンからよみを入力して絵文字に変換できるユーザ辞書も https://github.com/peaceiris/emoji-ime-dictionary

リンク

大谷シフトに、1回限定の先発投手。メジャーは野球の常識を常に疑う。（ナガオ勝司）

大谷翔平が「投打二刀流」でプロ野球の概念を変えるずっと前から、メジャーリーグは――まったく違う方法で――既成概念への挑戦を続けてきた。打率より出塁率。出塁率よりOPS（出塁率＋長打率）。守備に依存しない防御率。守備における貢献度や攻撃における得点への貢献度を正しく割り出す数式……等々。選手の力量を見極める新しい指標が発見され、今では普通に使われている。それらの新しいアイディアを検証するため、本拠地球場のみならず、傘下のマイナー球場やキャンプ施設にまでカメラが多数設置され、あらゆる角度から映像解析をすることができるようになった。高速度撮影による映像をデジタル処理して、もっとも効果的な球の回転数や回転軸、打球の角度まで検証されるようになった。スカウトの裸眼だけで選手の力量を見極めたのは遠い過去の話だ。今ではストップ・ウォッチやスピードガンといった道具を使うスカウティングですら、伝統的な

nezuku 2018/08/07

リンク

｢乗り換えで歩く距離｣が長い駅ランキング

日頃の通勤・通学で、意外に時間がかかっているのが﹁乗り換え﹂だ。少し歩くだけで済むなら楽だが、東京や大阪の大ターミナルでは各路線間の距離が離れているケースが多い。東京駅でのJR京葉線や横須賀・総武快速線とほかの各路線間や、JR 大阪駅と阪急梅田駅の乗り換えなどは﹁遠いなあ﹂と感じる人も多いのではないだろうか。では、首都圏・中京圏・近畿圏の3大都市圏で、乗り換えに要する時間や移動距離が長いのはどこなのだろうか。データを基に調査してみた。乗り換え時間の平均が長いのは近畿圏検証にあたっては、国土交通省の﹁第12回大都市交通センサス﹂のデータを基にした。移動距離については﹁乗換え調査﹂の報告書資料編、集計データファイルの数値を使用した。まずは首都圏・中京圏・近畿圏の平均乗り換え移動時間を見てみよう。交通センサスの﹁三大都市圏における乗換えの傾向﹂によると、ラッシュピーク時の乗り換え移動時間の

nezuku 2017/05/18

武蔵小杉の東海道線-南武線or東横線がなぜランクインしていないという反応多数だった。上位勢に比べるとそう長くない測定結果だったの? / 単純に長い京葉線や意図的(?)に距離の長い秋津-新秋津がきつい感。

リンク

情報学研究データリポジトリデータセット一覧

2024/06/27 現在民間企業提供データ Yahoo!データセット国立情報学研究所がLINEヤフー株式会社（旧社名ヤフー株式会社）から提供を受けて研究者に提供しているデータセットです。 Yahoo!知恵袋データ（第3版）（2024-04-01 更新）楽天データセット楽天グループ株式会社が国立情報学研究所を通じて研究者に提供しているデータセットです。楽天市場の全商品データ，レビューデータ楽天トラベルの施設データ，レビューデータ楽天 GORAのゴルフ場データ，レビューデータ楽天レシピのレシピ情報，レシピ画像アノテーション付きデータニコニコデータセット国立情報学研究所が株式会社ドワンゴから提供を受けて研究者に提供しているデータセットです。ニコニコ動画コメント等データニコニコ大百科データリクルートデータセット国立情報学研究所が株式会社リクルートから提供を受けて研

nezuku 2016/12/19

リンク

クックパッドのデータを研究者に公開します - クックパッド開発者ブログ

こんにちは。検索・編成部の原島です。大学の研究者にお会いすると、﹁クックパッドのデータを研究に使用したいんですが...﹂と相談されることがあります。料理に関する研究をしているけれど、実際のデータがないため、なかなか研究が進まないという相談です。料理に関する研究が進まないのは、クックパッドにとっても残念なことです。これらの研究は、クックパッドのサービスを改善するための﹁芽﹂でもあります。データがないだけで芽が育たないのは、非常に悲しい話です。このような現状を打破するため、本日から、クックパッドのデータを研究者に公開します。このエントリでは、我々が準備してきたデータ公開の仕様についてQA形式で解説します。誰が利用できるの？申請していただいた研究者です。ただし、公的機関︵e.g. 大学、独立行政法人︶の研究者に限ります。申請時には、クックパッドと国立情報学研究所︵後述︶による審査が

nezuku 2015/02/24

対スクレーピングの側面もあるのか。たしかに研究向けに正規の方法のアクセスがあれば、そういう手法を用いる相手に対して然るべき対策をより講じれるだろうしね

リンク

人口密度と出生率

2014年10月29日の日経新聞記事（真相深層）少子化対策より交付金？地方創生「東京集中是正論」の裏側　都市の若者支援急務（有料）に載っている「欧州の地域別人口密度と出生率」というプロットがひどいというこのツイートが話題になっていた。データについては，微妙に違うようだが，鈴木努先生（@snatool）に教えていただいたものがほぼ同じようである： tgs00100 (Fertility Rate) tgs00024 (Population Density) これら（gunzipで伸長）をRで読み込む。 fertility = read.table("tgs00100.tsv", header=TRUE, as.is=TRUE, na.strings=":") popden = read.table("tgs00024.tsv", header=TRUE, as.is=TRUE, na.s

nezuku 2014/10/31

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

データに関するnezukuのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス