サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
yanashi.hatenablog.com
はじめに タイトルからすぐに誤解を生みそうなので先にいっておくとデータサイエンティストに対してのネガティブな記事ではありません。自分としてはもっと世の中にデータを生かしてビジネスをより良くしていくことに対して価値を感じてくれる組織が一社でも増えてほしいと思っているし、その際にはデータサイエンティストが不可欠な機能だと思っているのでどうやったらデータやデータサイエンティストを組織で最大限活用できるかということに対する反面教師的な内容だと思ってほしいです。 組織におけるデータサイエンティストの立ち位置について 「データの分析をタダで引き受けてはならない10の理由」って記事が最近バズっていたけど客観的に見て同じような悩みを抱えている「データサイエンティスト」っていわれる人ってすごく多いんだろうなって思います。最近、ビックデータもしくはデータサイエンティストブームに踊らされて、組織内で「データサイ
はじめに いきなり数学っぽいで最近競技データマイニング界(そんな言葉があるかわからないがアルゴリズムの精度を競う大会)「Deep Learning」について調べていて思ったこと。別にDeep Learning自体には触れる気はないのでご興味のある方は以下のスライドを見てみてください: 日経ビジネスのDeep Learningの記事 −http://www.ymatsuo.com/papers/DeepLearningNikkei.pdf 一般的なDeep Learning −http://www.slideshare.net/pfi/deep-learning-22350063 ざっくりと何がすごいかというと「汎用的な特徴の集合から複雑な特徴を勝手に解釈してくれる」らしい。そりゃ一般的なサービス開発に向いてるよねと思ったら、しっかりとこのアルゴリズムを作った人の会社はGoogleにすぐに買
はじめに データマイニングの仕事をやっているとよく『最適化』という言葉に出くわすことがある。例えば、『データマイニングの技術を使って広告効果を最適化してます』とか『うちのゲームはデータ分析によってユーザーに対して最適なコンテンツを出し分けている』とか。 自分も困ると『データマイニングにより最適化を行ってます』と話しちゃうことが多い。そりゃ「最適化=最も適した状態にすること」なんだから話を聞いた相手もぐうの音も出ないから相手を説得しやすい。 でも、最適化って「どう最適化するか=データマイニング技術」よりも「何を最適化するか=何をKPIにするか」の方がお金儲けに直結するし、そここそがデータマイニングのコアになっていることが多いと思うので、それに関する個人的な意見。 例として広告における最適化 「CPA最適化」とか「CTR最適化」とか。ネット上でとれる数値に対して最適って言う文脈で出ることが多い
データセクションさんのご好意でTwitterやFacebookに投稿された内容の時系列データをいただいたので、今日は選挙だしソーシャルメディアの情報からいろいろと分析をしてみました(最下部に今回分析したデータの元データも公開しています)。 データについて データの集計対象は12月3日〜15日までにTwitter/Facebookに投稿されたデータで集計の関係上直近一週間のデータは集計の関係上一部サンプリングされたデータが使われています。分析結果はTwitter/Facebookに投稿された投稿内容のテキスト情報を元に作成しています。 例えば、自民党のデータであれば「自民党 選挙」という文字列が含まれているテキスト情報に分析を行っています。またTwitter/Facebookを使っている人たちの平均的な傾向として「。」という文字が含まれたデータを平均値として用いています。さらに今回は総選挙の
前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される(=仕事を湯水の如くふられる)ために必要なソフトスキルについての経験的なメモ。 せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド(サーバーメトリックスの人)見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと: 1.数字をいくらでも見ていられるスキル 膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される(見るべきKPIが無限増殖する)人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ
タイトル通り「グリーを辞めました」ということで心機一転、はてなダイヤリーからはてなブログに移行して更新を真剣に再開しようかと。 <以下Facebookに記載した内容から転記> グリーには2年前の4月に新卒として入り、ドリランドの担当・編成の担当・FPのプラットフォームの立て直し、SP版プラットフォームの立ち上げから改善、そしてグローバル版プラットフォームの立ち上げ・・・新卒からで3年も働いていない人にも関わらず多くのチャンスを与えていただきました。 送別会も取締役や部長陣の方々を含む総勢100名以上の人がきてくださり、DJプレイ・ハマーのリムジンでのツアーやシャンパンタワーにシャワー・卒業ムービーなど今までのグリーの卒業式ではない盛りだくさんのイベントを楽しませていただきました。 これは中心となって卒業を祝ってくれた面々を中心としたグリーで関わった皆さんに支えられてのことだと思っております
RSCTC2010というのに統計解析のコンテストに 出場して(一応)世界で96人中3位になりました。 → http://tunedit.org/challenge/RSCTC-2010-B?m=leaderboard このコンテストが何をやるコンテストだったかというと DNAマイクロアレイのクラスタリングのコンテスト で、2クラスから5クラスの分類を 6課題くらい行うというものでした。 テストデータの段階では、微妙に19位くらいで 恥ずかしかったので周りにいわずにたらたらやって ました。 なので、ほとんど期待していなかったのですが 本番のデータでやってみたところ 精度が3位になっててちょっとびっくり。 (しかも、超僅差で3000USDもらい損ねた。。。) ただ、使ったアルゴリズムは むちゃくちゃ単純なので 解析のフローについて若干以下に書いておきます。 利用したのは ・ランダムフォレスト
バイト先で広告の効果測定を頼まれたので、前々から興味があったMCMCを使って測定を行った。 PythonにはPyMCという専用のパッケージがあるけど、そっちはどうも小難しい感じがしたので Rpyを使って使えるようにしてみた。 使い方はRで回帰分析をするときとほとんど同じでデータフレームと数式を入れると結果を出すという形式にした。 用いたデータは2004年1月〜2009年9月までの円ドルレートとアメリカの失業率。(http://www.mediafire.com/?mfo5mmezow3) MCMCで解析した結果とその際に行われた推定の過程をPDFファイルで吐き出してくれるようにした。 解析した結果はと言うと、失業率と円/ドルはそこまで関係が強くないらしい(回帰分析でR2が0.63くらい) 単変量であたるくらい単純なものだったら、FXで損する人はいないか。 以下、今回用いたソースコード。 #
このページを最初にブックマークしてみませんか?
『dataminer.me』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く