「標本調査」の版間の差分
Greenland4 (会話 | 投稿記録) +cat |
編集の要約なし |
||
(37人の利用者による、間の45版が非表示) | |||
1行目: | 1行目: | ||
{{参照方法|date=2019年3月}} |
|||
⚫ | |||
{{Expand English|Sampling (statistics)|date=2024年5月}} |
|||
⚫ | |||
例として |
標本調査の例として、商品などの抜き取り調査、一般の[[社会調査]]や[[世論調査]]などがある。[[国勢調査]]は全数調査であり、[[選挙]]の[[投票]]も建前上は全数調査である。別の視点からいえば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるので、動機づけのひずみ (motivational bias) を考慮する必要がある{{sfn|福武|松原|1967|loc=動機}}。
|
||
全数調査は一般に |
全数調査は一般に以下のような理由によって不可能なことが多いので、標本調査が必要になる。 |
||
*物品を対象とする場合、 |
*物品を対象とする場合、[[破壊検査]]では調査すること自体が調査目的に合わない。全数検査は[[非破壊検査|非破壊的検査]]に限る。 |
||
⚫ | |||
*例えば[[医学]]・[[心理学]]などの調査では、全人類(これから生まれる人も含む)が母集団にな |
*:例えば[[医学]]・[[心理学]]などの調査では、全人類(これから生まれる人も含む)が母集団になり、全数調査は費用・手間・時間が問題となるので調査は不可能。 |
||
⚫ | |||
== 手順 == |
|||
標本調査は次のような段階を踏んで行われる。 |
標本調査は次のような段階を踏んで行われる。 |
||
#対象とする母集団の定義 |
#対象とする母集団の定義 |
||
18行目: | 21行目: | ||
方法としては単純[[無作為抽出]]を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。 |
方法としては単純[[無作為抽出]]を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。 |
||
==母集団の定義== |
== 母集団の定義 == |
||
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方[[動物実験]]のように、母集団を特定すること︵実験データの理想化︶がむしろ目的となる場合もある。
|
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方[[動物実験]]のように、母集団を特定すること︵実験データの理想化︶がむしろ目的となる場合もある。
|
||
==抽出 |
== 標本抽出 == |
||
=== 抽出の枠 === |
|||
次に、各要素を識別するための抽出枠(リスト)を設定する。 |
次に、各要素を識別するための抽出枠(リスト)を設定する。 |
||
抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。 |
抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。 |
||
一例を挙げると、[[1936年]]のアメリカ大統領選で、Literary Digestは |
一例を挙げると、[[1936年]]の[[1936年アメリカ合衆国大統領選挙|アメリカ大統領選]]で、Literary Digestは230万人の調査から、対立候補が[[フランクリン・ルーズベルト|F.D.ルーズベルト]]候補に勝つ︵57%対43%︶と予想した。しかし、世論調査会社[[ギャラップ (企業)|ギャラップ]]ははるかに少ない人数の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestの調査では、電話や自動車の保有者リストを用いたことや、1,000万の調査対象に対し[https://books.google.co.jp/books?id=N5hO3FGsnXEC&pg=PA35&lpg=PA35&dq=The+Literary+Digest+Poll:+Making+of+a+Statistical+Myth&source=bl&ots=--TOuGNZEJ&sig=y28qdbdDZUNfGRcRqt2A1XCjEPQ&hl=en&ei=uerXTce5EZGgsQPf7P25Bw&sa=X&oi=book_result&ct=result&redir_esc=y#v=onepage&q=The%20Literary%20Digest%20Poll%3A%20Making%20of%20a%20Statistical%20Myth&f=false 230万の有効回答]しか得られなかったこと、読者層に保守派が多かったことなどが原因となって、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまった。同じようなことは、近年の[[インターネット]]による調査でも問題になっている。
|
||
具体的には、まず全体を決め、次に以下のような枠組みを決定する。 |
具体的には、まず全体を決め、次に以下のような枠組みを決定する。 |
||
|
=== 単純抽出 === |
||
[[File:Simple random sampling.PNG|100px|thumb|単純抽出]] |
|||
|
これは全要素を平等に扱い、分割はしない方法である。 |
||
;層化(層別)抽出([[層化抽出法]]) |
|||
⚫ | |||
⚫ | |||
⚫ |
|
||
⚫ | |||
⚫ |
|
||
==抽出 |
=== 層化(層別)抽出([[層化抽出法]])=== |
||
[[File:Stratified sampling.PNG|100px|thumb|層化抽出]] |
|||
⚫ | |||
⚫ | |||
[[File:Cluster sampling.PNG|100px|thumb|クラスター抽出]] |
|||
⚫ | 母集団の要素が[[データ・クラスタリング|クラスター]]を作っている場合、抽出にこれを利用してコストを省くことができる。例えば[[電話]]の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話(クラスターを作る)を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。 |
||
⚫ | |||
⚫ | まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。 |
||
== 抽出方法 == |
|||
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。 |
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。 |
||
|
=== 無作為(ランダム)抽出 === |
||
[[無作為抽出]]は確率的抽出の代表的なもので、全ての要素の組合せの起こる[[確率]]がわかっている(必ずしも同じとは限らない)場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う[[誤差]]からそのリスクを計算し、適切な(リスクが容認できる範囲で実用的な)標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかしこれは実用的でない場合も多い |
[[無作為抽出]]は確率的抽出の代表的なものであり、全ての要素の組合せの起こる[[確率]]がわかっている︵必ずしも同じとは限らない︶場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う[[誤差]]からそのリスクを計算し、適切な︵リスクが容認できる範囲で実用的な︶標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかし、これは実用的でない場合も多い。より実用的な確率的抽出として層化抽出︵上述︶や多段階抽出︵無作為抽出を反復する︶をよく用いる。[[社会調査]]では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないので、無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。
|
||
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。 |
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。 |
||
|
=== 系統抽出 === |
||
系統抽出の例としては、電話帳から10番目 |
系統抽出の例としては、電話帳から10番目ごとに抽出する方法がある。簡単ではあるが、データの非対称性と[[偏り]]から、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。
|
||
*機械的抽出: |
|||
⚫ | |||
|
=== 機械的抽出 === |
||
⚫ | |||
=== 便宜的抽出 === |
|||
要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。[[社会科学]]の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
|
要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。[[社会科学]]の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
|
||
==抽出 |
=== 復元抽出 === |
||
一度調査した対象をまた調査対象に含める{{sfn|西岡|2013|loc=4.3 乗法定理|p={{google books quote|id=AUY2AgAAQBAJ|page=49|49}}}}。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
|
|||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
=== 非復元抽出 === |
|||
⚫ | |||
一度調査した対象は調査対象から除外する{{sfn|西岡|2013|loc=4.3 乗法定理|p={{google books quote|id=AUY2AgAAQBAJ|page=49|49}}}}。複数の調査が短期間であったり、調査の謝礼を渡す方式だったりすると、一度調査した対象は除外することがある。
|
|||
== 抽出とデータ収集 == |
|||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
伝統的な標本調査は、標本から[[中心極限定理]]と[[正規分布]]近似(場合によっては正規分布によらない[[ノンパラメトリック推定]]も利用できる)を利用して、母集団と[[母数]]を推定することで行う。これは計画に基づく抽出といわれる。 |
伝統的な標本調査は、標本から[[中心極限定理]]と[[正規分布]]近似(場合によっては正規分布によらない[[ノンパラメトリック推定]]も利用できる)を利用して、母集団と[[母数]]を推定することで行う。これは計画に基づく抽出といわれる。 |
||
現代的な方法としては、抽出過程から[[ベイズ推定]]などを用いてモデルを作る、モデルに基づく抽出がある。この方法は標本サイズが小さいときに実用的であるが、モデルの前提の正しさを確認しておく必要がある。
|
現代的な方法としては、抽出過程から[[ベイズ推定]]などを用いてモデルを作る、モデルに基づく抽出がある。この方法は標本サイズが小さいときに実用的であるが、モデルの前提の正しさを確認しておく必要がある。
|
||
===標本の加重=== |
=== 標本の加重 === |
||
層別抽出では、一般に標本として抽出される比率が層によって |
層別抽出では、一般に標本として抽出される比率が層によって異なるので、データには正しく母集団を代表するように加重をしなければならない。 |
||
例えば社会調査で単純無作為抽出をするには、僻地の人も含めねばならないが、僻地の人にインタビューするにはコストがかかる。このコストを節約する方法として、都会と地方に層化する方法がある。地方の標本 |
例えば社会調査で単純無作為抽出をするには、僻地の人も含めねばならないが、僻地の人にインタビューするにはコストがかかる。このコストを節約する方法として、都会と地方に層化する方法がある。地方の標本サイズが小さくなっても、分析で重みをつけることによって補うことができる。 |
||
==抽出過程の再調査== |
== 抽出過程の再調査 == |
||
抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは調査不能対象である。 |
抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは、調査不能対象である。 |
||
===調査不能者=== |
=== 調査不能者 === |
||
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り︵非確率的誤差︶につながるおそれがあるので、しばしば追跡調査が必要になる。
|
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り︵非確率的誤差︶につながるおそれがあるので、しばしば追跡調査が必要になる。
|
||
== |
== 出典 == |
||
{{reflist|2}} |
|||
== 参考文献 == |
|||
* {{Cite book|和書 |author1=福武 直 |author2=松原 治郎 |year=1967 |title=社会調査法 |publisher=[[有斐閣]] |ref=harv}} |
|||
* {{Cite book|和書 |author=西岡 康夫 |year=2013 |title=数学チュートリアル やさしく語る 確率統計 |url={{google books|AUY2AgAAQBAJ|plainurl=yes}} |publisher=[[オーム社]] |isbn=978-4-274-21407-3 |ref=harv}} |
|||
* {{Cite book|和書 |author=伏見康治|authorlink=伏見康治 |year=1942 |title=確率論及統計論 |publisher=[[河出書房]] |isbn=978-4-87-472012-7 |url= http://ebsa.ism.ac.jp/ebooks/ebook/204 |ref={{sfnref|伏見}}}} |
|||
* {{citation|和書 |year=1999 | title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 | publisher=[[日本規格協会]] | publisherlink=kikakurui.com | url=http://kikakurui.com/z8/Z8101-1-1999-01.html | ref={{sfnref|JIS Z 8101-1:1999}}}} |
|||
* {{Cite book|和書 |author=日本数学会|authorlink=日本数学会 |year=2007 |title=数学辞典 |publisher=[[岩波書店]] |isbn=978-4-00-080309-0}} |
|||
== 関連項目 == |
|||
*[[統計]] |
*[[統計]] |
||
*[[統計学]] |
*[[統計学]] |
||
83行目: | 113行目: | ||
*[[母集団]] |
*[[母集団]] |
||
*[[無作為抽出]] |
*[[無作為抽出]] |
||
⚫ | |||
== 外部リンク == |
|||
⚫ | |||
* {{Kotobank}} |
|||
⚫ | |||
{{統計学}} |
|||
{{Normdaten}} |
|||
{{デフォルトソート:ひようほんちようさ}} |
|||
⚫ | |||
[[Category:標本]] |
|||
[[Category:社会科学]] |
[[Category:社会科学]] |
||
[[Category:数学に関する記事]] |
[[Category:数学に関する記事]] |
||
[[Category: |
[[Category:評価方法]] |
||
[[da:Stikprøve]] |
|||
[[de:Auswahlverfahren]] |
|||
[[en:Sampling (statistics)]] |
|||
[[es:Muestreo en estadística]] |
|||
[[fr:Échantillon (statistiques)]] |
|||
[[he:מדגם]] |
|||
[[id:Teknik sampling]] |
|||
[[it:Campionamento statistico]] |
|||
[[lt:Atranka]] |
|||
[[pl:Dobór próby]] |
|||
[[pt:Base de sondagem]] |
|||
[[su:Sampling (statistics)]] |
2024年5月22日 (水) 12:27時点における最新版
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
●英語版記事を日本語へ機械翻訳したバージョン︵Google翻訳︶。
●万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
●信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
●履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
●翻訳後、
{{翻訳告知|en|Sampling (statist ics)|…}} をノートに追加することもできます。
●Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。
|
手順
[編集]標本調査は次のような段階を踏んで行われる。
- 対象とする母集団の定義
- 抽出の枠(測定する要素のリスト)の設定
- 枠から要素を選択する(標本抽出)方法の特定
- 標本抽出とデータ収集
- データ解析
- 再調査
方法としては単純無作為抽出を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。
母集団の定義
[編集]標本抽出
[編集]抽出の枠
[編集]単純抽出
[編集]これは全要素を平等に扱い、分割はしない方法である。
クラスター抽出
[編集]割当て抽出(クォータ・サンプリング)
[編集]まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。
抽出方法
[編集]上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。
無作為(ランダム)抽出
[編集]系統抽出
[編集]機械的抽出
[編集]便宜的抽出
[編集]復元抽出
[編集]一度調査した対象をまた調査対象に含める[2]。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
非復元抽出
[編集]一度調査した対象は調査対象から除外する[2]。複数の調査が短期間であったり、調査の謝礼を渡す方式だったりすると、一度調査した対象は除外することがある。
抽出とデータ収集
[編集]データ解析
[編集]標本の加重
[編集]抽出過程の再調査
[編集]抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは、調査不能対象である。