「標本調査」の版間の差分
編集の要約なし |
Kaizen nagoya (会話 | 投稿記録) 編集の要約なし |
||
1行目: | 1行目: | ||
'''標本調査'''︵ひょうほんちょうさ︶とは、[[母集団]]をすべて[[調査]]対象とする'''全数調査'''に対して、母集団から[[標本 (統計学)|標本]]を抽出して調査し、それから母集団の性質を[[統計学]]的に[[統計学的推定|推定]]する方法である。
|
'''標本調査'''︵ひょうほんちょうさ︶とは、[[母集団]]をすべて[[調査]]対象とする'''全数調査'''に対して、母集団から[[標本 (統計学)|標本]]を抽出して調査し、それから母集団の性質を[[統計学]]的に[[統計学的推定|推定]]する方法である。
|
||
例としては、商品などの抜き取り調査、一般の[[社会調査]]や[[世論調査]]などがある。 |
例としては、商品などの抜き取り調査、一般の[[社会調査]]や[[世論調査]]などがある。[[国勢調査]]は全数調査であり、[[選挙]]の[[投票]]も建前上は全数調査である。別の視点から言えば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるため動機づけのひずみ(motivational bias)を考慮する必要がある{{sfn|福武|loc=動機}}。
|
||
全数調査は一般に、以下のような理由により不可能なことが多いため、標本調査が必要になる。 |
全数調査は一般に、以下のような理由により不可能なことが多いため、標本調査が必要になる。 |
||
*物品を対象とする場合、 |
*物品を対象とする場合、[[破壊検査]]は調査する目的が調査目的似合わない。全数検査は[[非破壊検査|非破壊的検査]]に限る。 |
||
⚫ | |||
*例えば[[医学]]・[[心理学]]などの調査では、全人類(これから生まれる人も含む)が母集団にな |
**例えば[[医学]]・[[心理学]]などの調査では、全人類(これから生まれる人も含む)が母集団になり、全数調査は費用・手間・時間から同時調査は不可能。 |
||
⚫ | |||
標本調査は次のような段階を踏んで行われる。 |
標本調査は次のような段階を踏んで行われる。 |
||
21行目: | 21行目: | ||
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方[[動物実験]]のように、母集団を特定すること︵実験データの理想化︶がむしろ目的となる場合もある。
|
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方[[動物実験]]のように、母集団を特定すること︵実験データの理想化︶がむしろ目的となる場合もある。
|
||
==抽出 |
== 標本抽出== |
||
===抽出の枠=== |
|||
次に、各要素を識別するための抽出枠(リスト)を設定する。 |
次に、各要素を識別するための抽出枠(リスト)を設定する。 |
||
30行目: | 31行目: | ||
具体的には、まず全体を決め、次に以下のような枠組みを決定する。 |
具体的には、まず全体を決め、次に以下のような枠組みを決定する。 |
||
|
=== 単純抽出 === |
||
|
これは全要素を平等に扱い、分割はしない方法である。 |
||
|
層化(層別)抽出([[層化抽出法]]) |
||
母集団が互いに重ならない複数のカテゴリからなる場合には、枠をそのカテゴリ、すなわち層に分ける。標本サイズは層の[[標準偏差]]、あるいは母集団において層の占める割合に比例したものにする。各層は、[[平均]]が互いに十分異なり、[[分散]]が全体の分散よりは小さいように選ぶ。
|
|||
|
===クラスター抽出=== |
||
|
母集団の要素が[[データ・クラスタリング|クラスター]]を作っている場合、抽出にこれを利用してコストを省くことができる。例えば[[電話]]の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話(クラスターを作る)を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。 |
||
|
===割当て抽出(クォータ・サンプリング)=== |
||
|
まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。 |
||
==抽出方法== |
==抽出方法== |
||
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。 |
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。 |
||
|
===無作為(ランダム)抽出=== |
||
[[無作為抽出]]は確率的抽出の代表的なもので、全ての要素の組合せの起こる[[確率]]がわかっている(必ずしも同じとは限らない)場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う[[誤差]]からそのリスクを計算し、適切な(リスクが容認できる範囲で実用的な)標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかしこれは実用的でない場合も多い |
[[無作為抽出]]は確率的抽出の代表的なもので、全ての要素の組合せの起こる[[確率]]がわかっている︵必ずしも同じとは限らない︶場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う[[誤差]]からそのリスクを計算し、適切な︵リスクが容認できる範囲で実用的な︶標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかしこれは実用的でない場合も多い。より実用的な確率的抽出として層化抽出︵上述︶や多段階抽出︵無作為抽出を反復する︶をよく用いる。[[社会調査]]では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないため無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。
|
||
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。 |
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。 |
||
|
=== 系統抽出=== |
||
系統抽出の例としては、電話帳から10番目毎に抽出する方法がある。簡単ではあるが、データの非対称性と[[偏り]]から、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。
|
系統抽出の例としては、電話帳から10番目毎に抽出する方法がある。簡単ではあるが、データの非対称性と[[偏り]]から、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。
|
||
|
===機械的抽出=== |
||
機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は無作為でな |
機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は、機械の設計の意図、機械の動作条件によって偏りが生じる可能性があるため、無作為ではない。機械の設計の意図、機械の動作条件を確率論的に表現できれば、確率的抽出の一種であるということもできる。標本が枠を確実に代表するように注意を要する。
|
||
|
===便宜的抽出=== |
||
要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。[[社会科学]]の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
|
要素を枠から任意に、構造を作らずに選ぶ方法である{{sfn|西岡|loc=4.3 乗法定理 p.49}}。誤差が大きくなりがちだが、実用的である。[[社会科学]]の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
|
||
===復元抽出 === |
|||
一度調査した対象をまた調査対象に含める{{sfn|西岡|loc=4.3 乗法定理 p.49}}。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
|
|||
=== 非復元抽出=== |
|||
一度調査した対象は調査対象から除外する。複数の調査が短期間であったり、調査のお礼を渡す方式だったりすると、一度調査した対象は除外することがある。 |
|||
==抽出とデータ収集== |
==抽出とデータ収集== |
||
74行目: | 81行目: | ||
===調査不能者=== |
===調査不能者=== |
||
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り︵非確率的誤差︶につながるおそれがあるので、しばしば追跡調査が必要になる。
|
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り︵非確率的誤差︶につながるおそれがあるので、しばしば追跡調査が必要になる。
|
||
== 脚注 == |
|||
{{reflist}} |
|||
== 参考文献 == |
|||
* {{Cite book|和書|author=福武 直・松原 治郎|year=1967|title=社会調査法|publisher=[[有斐閣]]}|ref={{sfnref|福武}}}} |
|||
* {{Cite book|和書|author=西岡康夫|year=2013|title=数学チュートリアル やさしく語る 確率統計|publisher=[[オーム社]]|isbn=9784274214073}|ref={{sfnref|西岡}}}} |
|||
* {{Cite book|和書|author=[[伏見康治]]|year=1942|title=[[確率論及統計論]]|publisher=[[河出書房]]|isbn=9784874720127|url= http://ebsa.ism.ac.jp/ebooks/ebook/204}| ref={{sfnref|伏見}}}} |
|||
* {{citation |year=1999 | title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 | publisher=[[日本規格協会]] | publisherlink=kikakurui.com | url=http://kikakurui.com/z8/Z8101-1-1999-01.html | ref={{sfnref|JIS Z 8101-1 : 1999}}}} |
|||
* {{Cite book|和書|author=[[日本数学会]]|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}} |
|||
==関連項目== |
==関連項目== |
2016年4月24日 (日) 21:19時点における版
母集団の定義
標本抽出
抽出の枠
単純抽出
クラスター抽出
割当て抽出(クォータ・サンプリング)
まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。
抽出方法
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。
無作為(ランダム)抽出
系統抽出
機械的抽出
便宜的抽出
復元抽出
一度調査した対象をまた調査対象に含める[2]。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
非復元抽出
一度調査した対象は調査対象から除外する。複数の調査が短期間であったり、調査のお礼を渡す方式だったりすると、一度調査した対象は除外することがある。
抽出とデータ収集
データ収集には次のような注意が必要である:
- 既定の抽出過程に従って行う
- データの時間順序を守る
- 調査過程での注意点を記録する
- 調査不能となった対象を記録する
データ解析
標本の加重
抽出過程の再調査
抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは調査不能対象である。