「フィッシャーの正確確率検定」の版間の差分

削除された内容追加された内容

インライン

2024年5月28日 (火) 16:44時点における最新版

フィッシャーの正確確率検定︵フィッシャーのせいかくかくりつけんてい、英: Fisher's exact test︶は、標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である^[1]^[2]^[3]。フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。 2 x 2分割表︵2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1︶の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい︵分割表のセルの期待値に10未満のものがある︶場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合︵差がなさそうに見える場合︶には計算が難しいが、このようなときはカイ二乗検定が利用可能である。以下に、2 x 2分割表での分析例を示す‥ 男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある︵性別とダイエット中かどうかとに関連がある︶かどうかを検定する。データは次の2 x 2分割表で表される‥

	男	女	全
ダイエット中	1	9	10
非ダイエット	11	3	14
合計	12	12	24

このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをa、b、c、d と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる‥

	男	女	全
ダイエット中	a	b	a+b
非ダイエット	c	d	c+d
合計	a+c	b+d	n

フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した‥

p={\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

p={\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

ここで記号! は階乗を表す。また、各小計および総計n を一定とすればb、c、d はいずれもa から求められるので、自由度は1である。この式は、﹁母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい﹂という帰無仮説の下で、この特定の数値の組み合わせが得られる正確な確率を与える。しかしこの確率は普通の仮説検定で有意差を表す﹁p値﹂とは違い、p値を求めるには︵普通の検定と同じように︶実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ︵男はだれもダイエットしていない︶だけである‥

	男	女	全
ダイエット中	0	10	10
非ダイエット	12	2	14
合計	12	12	24

観測データの有意性︵つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率︶を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。なお、以上はある一方に偏った場合だけを考慮する︵女性のダイエット率の方が高いのかどうかを調べる︶片側検定であるが、両方への偏りを考慮する︵男性のダイエット率の方が高い場合もありうるとして考える︶両側検定を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。正確確率検定の計算には時間がかかり、コンピュータを用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の数表を使うこともできるが、現在は統計パッケージでの計算も可能である︵ただし数値の偏りが小さい場合など計算できないこともある︶。

脚注[編集]

[脚注の使い方]

^ Fisher, R. A. (1922). “On the interpretation of χ² from contingency tables, and the calculation of P”. Journal of the Royal Statistical Society 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
^ Fisher, R.A. (1954). Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2
^ Agresti, Alan (1992). “A Survey of Exact Inference for Contingency Tables”. Statistical Science 7 (1): 131–153. doi:10.1214/ss/1177011454. JSTOR 2246001.

外部リンク[編集]

JavaScript-STAR　フリーの分散分析ツールとして有名だが、1 x 2および2 x 2の直接確率検定が実行可能。

[1] Fisher, R. A. (1922). “On the interpretation of χ² from contingency tables, and the calculation of P”. Journal of the Royal Statistical Society 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.

[2] Fisher, R.A. (1954). Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2

[3] Agresti, Alan (1992). “A Survey of Exact Inference for Contingency Tables”. Statistical Science 7 (1): 131–153. doi:10.1214/ss/1177011454. JSTOR 2246001.

[1]

[2]

[3]

@@ 1行目: / 1行目: @@
+{{Expand English|Fisher's exact test|date=2024年5月}}
-'''フィッシャーの正確確率検定'''<ref>{{Cite journal| last=Fisher | first=R. A. | authorlink= ロナルド・フィッシャー | year=1922 | title=On the interpretation of χ<sup>2</sup> from contingency tables, and the calculation of P |journal=[[:en:Journal of the Royal Statistical Society|Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521}}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=[[:en:Statistical Methods for Research Workers|Statistical Methods for Research Workers]] | publisher=Oliver and Boyd| isbn=0-05-002170-2}}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001}}</ref>︵-せいかくかくりつけんてい、Fisher's exact test、'''フィッシャーの直接確率検定'''ともいう︶は、[[標本 (統計学)|標本]]数が少ない場合に、2つのカテゴリーに分類された[[データ]]の分析に用いられる[[統計学]]的検定法である。考案者[[ロナルド・フィッシャー]]の名による。
+'''フィッシャーの正確確率検定'''︵フィッシャーのせいかくかくりつけんてい、{{lang-en-short|Fisher's exact test}}︶は、[[標本 (統計学)|標本]]の大きさが小さい場合に、2つのカテゴリーに分類された[[データ]]の分析に用いられる[[統計学]]的検定法である<ref>{{Cite journal| last=Fisher | first=R. A. | authorlink= ロナルド・フィッシャー | year=1922 | title=On the interpretation of χ<sup>2</sup> from contingency tables, and the calculation of P |journal=[[:en:Journal of the Royal Statistical Society|Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521}}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=[[:en:Statistical Methods for Research Workers|Statistical Methods for Research Workers]] | publisher=Oliver and Boyd| isbn=0-05-002170-2}}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001}}</ref>。'''フィッシャーの直接確率検定'''ともいう。名称は考案者[[ロナルド・フィッシャー]]に因む。
-x 2分割表（2つの集団が2カテゴリーに分類されたデータを扱う場合、[[自由度]]は1）の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本数が大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるので[[カイ二乗検定]]が用いられるが、標本数が小さい（分割表のセルの[[期待値]]に10未満のものがある）場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本数が大きい場合や、数値の偏りが小さい場合（差がなさそうに見える場合）には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
+x 2[[分割表]]（2つの集団が2カテゴリーに分類されたデータを扱う場合、[[自由度]]は1）の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるので[[カイ二乗検定]]が用いられるが、標本の大きさが小さい（分割表のセルの[[期待値]]に10未満のものがある）場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合（差がなさそうに見える場合）には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
 以下に、2 x 2分割表での分析例を示す：
@@ 7行目: / 8行目: @@
 男および女の集団を、現在[[ダイエット]]している人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある（性別とダイエット中かどうかとに関連がある）かどうかを検定する。データは次の2 x 2分割表で表される：
+{| class="wikitable" style="margin-left:auto; margin-right:auto; text-align:right;"
-<center>
+ |-
-<table>
+ !
-<tr><td></td><td>男</td><td>女</td><td>全</td></tr>
+ ! style="min-width:2em;" | 男
-<tr><td>ダイエット中</td><td>1</td><td>9</td><td>10</td></tr>
+ ! style="min-width:2em;" | 女
-<tr><td>非ダイエット</td><td>11</td><td>3</td><td>14</td></tr>
+ ! style="min-width:2em;" | 全
-<tr><td>合計</td><td>12</td><td>12</td><td>24</td></tr>
+ |-
-</table>
+ ! ダイエット中
-</center>
+ | 1 || 9 || 10
+ |-
+ ! 非ダイエット
+ | 11 || 3 || 14
+ |-
+ ! 合計
+ | 12 || 12 || 24
+ |}
 このデータは、全てのセルの[[期待値]]が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルを''a''、''b''、''c''、''d'' と表示し、各行・各列の小計をそれらの和で、また総計を''n'' で表すと次のようになる‥
-<center>
+{| class="wikitable" style="margin-left:auto; margin-right:auto; text-align:center;"
-<table>
+ |-
-<tr><td></td><td>男</td><td>女</td><td>全</td></tr>
+ !
-<tr><td>ダイエット中</td><td>''a''</td><td>''b''</td><td>''a''+''b''</td></tr>
+ ! style="min-width:2em;" | 男
-<tr><td>非ダイエット</td><td>''c''</td><td>''d''</td><td>''c''+''d''</td></tr>
+ ! style="min-width:2em;" | 女
-<tr><td>合計</td><td>''a''+''c''</td><td>''b''+''d''</td><td>''n''</td></tr>
+ ! style="min-width:2em;" | 全
-</table>
+ |-
-</center>
+ ! ダイエット中
+ | ''a'' || ''b'' || ''a''+''b''
+ |-
+ ! 非ダイエット
+ | ''c'' || ''d'' || ''c''+''d''
+ |-
+ ! 合計
+ | ''a''+''c'' || ''b''+''d'' || ''n''
+ |}
 フィッシャーは、このような数値の組み合わせが得られる[[確率]]''p'' が次のような[[超幾何分布]]で表されることを示した：
 <center>
@@ 32行目: / 51行目: @@
 この式は、「母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい」という帰無仮説の下で、この'''特定の数値の組み合わせ'''が得られる'''正確な'''確率を与える。しかしこの確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには（普通の検定と同じように）実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ（男はだれもダイエットしていない）だけである：
-<center>
+{| class="wikitable" style="margin-left:auto; margin-right:auto; text-align:right;"
-<table>
+ |-
-<tr><td></td><td>男</td><td>女</td><td>全</td></tr>
+ !
-<tr><td>ダイエット中</td><td>0</td><td>10</td><td>10</td></tr>
+ ! style="min-width:2em;" | 男
-<tr><td>非ダイエット</td><td>12</td><td>2</td><td>14</td></tr>
+ ! style="min-width:2em;" | 女
-<tr><td>合計</td><td>12</td><td>12</td><td>24</td></tr>
+ ! style="min-width:2em;" | 全
-</table>
+ |-
-</center>
+ ! ダイエット中
+ | 0 || 10 || 10
+ |-
+ ! 非ダイエット
+ | 12 || 2 || 14
+ |-
+ ! 合計
+ | 12 || 12 || 24
+ |}
 観測データの有意性（つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率）を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。
 なお、以上はある一方に偏った場合だけを考慮する（'''女性のダイエット率の方が高いのか'''どうかを調べる）'''片側検定'''であるが、両方への偏りを考慮する（男性のダイエット率の方が高い場合もありうるとして考える）'''両側検定'''を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。
-正確確率検定の計算には時間がかかり、[[コンピュータ]]を用いる場合でも注意が必要である。これは式が階乗を含み、また標本数が大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の[[数表]]を使うこともできるが、現在は統計パッケージでの計算も可能である（ただし数値の偏りが小さい場合など計算できないこともある）。
+正確確率検定の計算には時間がかかり、[[コンピュータ]]を用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の[[数表]]を使うこともできるが、現在は統計パッケージでの計算も可能である（ただし数値の偏りが小さい場合など計算できないこともある）。
 == 脚注 ==
+{{脚注ヘルプ}}
 {{Reflist}}
 == 関連項目 ==
+*[[紅茶の違いのわかる婦人]]
 *[[推計統計学]]
 *[[ノンパラメトリック手法]]
@@ 61行目: / 92行目: @@
 [[Category:統計検定]]
 [[Category:数学に関する記事]]
+[[Category:数学のエポニム]]

2024年5月28日 (火) 16:44時点における最新版

脚注[編集]

関連項目[編集]

外部リンク[編集]