タグ

統計に関するsurume000のブックマーク (26)

  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • なるほど統計学園高等部

    はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!

  • 聞いてはいけない 残酷すぎるデータ4


     3020 18稿    
    聞いてはいけない 残酷すぎるデータ4
    surume000
    surume000 2016/09/29
    等高線グラフ
  • 経済指標ダッシュボード

    経済の動向を把握するのに役に立つ経済指標を一覧できます。国内総生産(GDP)成長率や物価上昇率など政府・日銀が注目する指標から金融市場の指標まで、データやグラフの保存もできます。

    経済指標ダッシュボード
  • 直帰率が0.5%改善したよ!→誤差では?→検定しましょう

    使い方 AとBのサンプル数と比率に値を入力して計算ボタンを押すと、検定統計量を計算して検定を行い、比率Aと比率Bに差があると言えるかかどうかを結果に表示します。 例えば施策前後の直帰率の比較を検定する場合は、施策前をA、施策後をBとして、サンプル数に訪問者数、比率に直帰率を入力します。コンバージョンのA/Bテストを検定する場合は、パターンAをA、パターンBをBとして、サンプル数に訪問者数、比率にコンバージョン率を入力します。 有意水準とは、検定に使う確率のパラメータで、この確率が小さいほど差があるかどうかの判定が厳しくなります。通常は5%でいいでしょう。検定統計量とは、入力値からある公式によって計算される値で、この値が棄却域内に入る確率と有意水準を比べて有意差検定します。検定方法は、二群の比率の差の検定で、z分布を使った両側検定をしています。検定方法の統計的な説明については下の囲みを参照し

    直帰率が0.5%改善したよ!→誤差では?→検定しましょう
  • 競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ


    100% 100%    stockedge.hatenablog.com   
    競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ


    2030%*1  100*2    - NAVER  
    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • HAD:フリーの統計プログラム | Sunny side up!


    HAD HADExcel HAD使 HAD HADHAD HAD OneDrive simizu706norimune.net HAD使 HAD HAD HA
  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • 統計データ・市場調査データを提供するサービス11選

    業界の市場動向を調べる際に、皆さんはどのように根拠データを入手していますか?自社のホームページに新規コンテンツを立ち上げたい時、どの方向に展開をしていけばそのマーケットを押さえることができるでしょうか。これらを解決するのが、Web上で閲覧できる統計や調査データの数々です。各企業が自社で調査した数値を公開しているものもあれば、国が統計データとして公開しているものもあります。 今回は調査や統計データを入手できるサイト、調査機関のサイトをまとめました。皆さんのビジネスにお役立てください。 ※データの引用や利用にあたり制限がある場合があります。詳しくは各サイトの利用規約などをご確認ください。 統計データや市場調査データが公開されているサービスまとめ 総務省統計局 http://www.stat.go.jp/ 今回紹介する中では最も利用され、また目にする機会も多い調査の一つかもしれません。総

    統計データ・市場調査データを提供するサービス11選
  • 東洋経済、月間1億PVの秘密 「ヒットの法則はデータが語る」・上 - withnews(ウィズニュース)


     551 883  1151032 18
    東洋経済、月間1億PVの秘密 「ヒットの法則はデータが語る」・上 - withnews(ウィズニュース)
    surume000
    surume000 2015/02/10
    データ分析"『iPhone』の記事は見出しに『iPhone』とついただけで伸びる。"“中身がないものを書くとロイヤリティが下がる。読んだお客さんが離れていく”
  • Pythonで統計学を学ぼうとして関数型に打ちのめされる。 – とのログ


    12/2311稿 Java Java Python 2014 Python  EA    
    Pythonで統計学を学ぼうとして関数型に打ちのめされる。 – とのログ
    surume000
    surume000 2015/02/07
    素直な感想に好感
  • データ・サイエンスのプログラミング言語はRからPythonに置き換わる | readwrite.jp

    これまでデータ・サイエンティストの選ぶプログラミング言語はRだったのだが、急激にPythonに置き換わろうとしている。 このシフトの理由はいくつかあるようだが、第一にはPython自体が汎用的で比較的学びやすい言語であるのに対し、Rが習得するにあたってやや複雑であることがあげられるだろう。 データにますます依存しつつある現代社会とデータに飢えたサイエンティストにとっては「簡単さ」こそが鍵となるのだ。 Rは実際にはプログラミング言語ではないRを覚えることに苦労する人が多い理由として考えられるのは、Rが実際にはプログラミング言語ではないからかもしれない。R専門家のジョン・クックいわく、Rとは「統計のためのインタラクティブな環境」であり、厳密にはプログラミング言語ではないのだ。彼はさらに「Rをプログラミング言語だと考るのではなく、Rがプログラミング言語を内包しているのだと考えた方が良いと分かった

    データ・サイエンスのプログラミング言語はRからPythonに置き換わる | readwrite.jp
  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ


    1n_mao HTMLjs     4 &       4
    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
  • 「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ

    石井准教授の作成した「統計解析ソフトRのスクリプト集」をオンラインで公開します。名古屋大学教育学部の「心理・教育の統計学」の授業で実際に使用されている教材です。学習・研究にご活用下さい。 2016.4.5 Ver. 4.0βを公開しました。棒グラフオプション、オメガ係数、効果量、標サイズの推定などの記述が加わりました。 2015.3.18 Ver. 3.0βを公開しました。記述統計量の算出の部分を統一的にしたのと、データ例を書籍にあわせて変えています。 2014.11.4 Ver. 2.2βを公開しました。 統計解析ソフトRのスクリプト集 (PDF) 下記のサイトでは、シラバスと講義資料が公開されています。あわせてご活用下さい。 「心理・教育の統計学」(名大の授業) 講義資料 (PDF) ーーー はじめに 石井秀宗 この冊子は,心理学や教育学の研究でよく用いられる統計手法に関して,統計解

    「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート


    1     
    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • 統計屋のためのAWK入門 - あんちべ!


     稿AWK *1 AWK  input.txt "fail" awk /fail/ input.txt    awkLinuxMac Windowsawk.exe 使 *2 Python
    統計屋のためのAWK入門 - あんちべ!
  • 統計解析用フリーソフト・R-Tips

    R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.

  • 社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久


    e-Stat 6 調 調Google使調 調 
    社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久
  • 勝ち抜きたければ「迷わない人」と組んではいけない。:日経ビジネスオンライン


       JFLJ
    勝ち抜きたければ「迷わない人」と組んではいけない。:日経ビジネスオンライン