渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか







統計学入門 (基礎統計学)

統計学入門 (基礎統計学)



6*1*2



統計学的検定は「分からないなら使わない方が無難かも」






(p.233)


 p.233





 





ExcelttestR使p< 0.05だから良いのか?とかp < 0.0000001だからもっと良いんだっけ?みたいな、そういう話になってしまうような。



(effect size)*3*4


ABCTR0.1%A


使p使




n±2σExcelKPI - 

f:id:TJO:20130529170529p:plain

ExcelBI


or*5



でも可能な限り統計学的検定は使うべき



*6使




: 



*7使


100tor100*8



多変量解析までは出来ると嬉しいことが多いかも



A/B*9


*10


ABABCD*11*12




4 - 


f:id:TJO:20131022001936p:plain
f:id:TJO:20131022162952p:plain





ただし多変量解析から先は専門家に投げた方が無難








使 - 



調Excel*13R*14MCMC使









統計学を用いることは、究極的には属人的スキル依存からの脱却につながる



使8*15











 


退






おまけ:赤本が示す仮説検定の定義


ところで、仮説検定とは一体何なのかという冒頭の問いかけについて。一応赤本pp.233-237から抜粋して紹介しておきます。

有意性検定


推定の考え方は数学的には単純なものであるが、仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい。


仮説検定 hypothesis testing の目的は、母集団について仮定された命題を、標本にもとづいて、検証することである。たとえば、エンドウ豆の型の度数分布が、理論上の仮説に合致しているかどうかの検証がそれである。

表12.1 エンドウ豆についてのメンデルの有名な実験データ(メンデルの法則)*16

黄色・丸い 黄色・しわがある 緑色・丸い 緑色・しわがある
度数 315 101 108 32 556
理論比 9 3 3 1 (16)


9:3:3:1 significant  statistical hypothesis  hypothesis  test of significance 


2014XBi(20,1/2)


p=1/2X12.2*17


P(X\geq14)=1-0.9423=0.0577

X=14p=1/2 reject 


0.0577"" significance level *18\alpha\alpha=0.10.0577\alpha=0.01""""X=14



帰無仮説と対立仮説



20p=1/2\alpha=0.1


pp \neq 1/2p>1/2 accept 


p=1/2 null hypothesis alternative hypothesis ''


H_0, H_1H_1, H2HHypothesis*19p=1/2, p>1/2(p<1/2)




12.3 
真実 H_0が正しい H_0が誤り(H_1正しい)
H_0を棄却しない(採択する)
H_0を棄却する



 


12.3(a) error of the first kind(b) error of the second kind*202×2 = 42212.4*21


12.112.212.4


これを読んでも分かる通り、またp.233の章頭のコメントにもあるように、仮説検定には統計的判断の論理学、科学方法論という意味合いもあります。そういう点で、仮説検定をただの統計学のツールであるかのように上っ面だけ理解しようとしてもうまくいかない、ということも言えそうです。


最後に





*1:Σ

*2:

*3:@ http://smrmkt.hatenablog.jp/entry/2013/08/11/095608

*4:

*5:

*6:

*7:

*8:

*9:

*10:

*11:

*12:

*13:

*14:

*15:

*16:

*17:

*18:

*19:''

*20:

*21: producer's risk consumer's risk