偏り
偏り︵かたより︶またはバイアス︵英: bias︶とは、統計学で2つの異なる意味に用いられる。
(一)標本の偏りとは、母集団の要素が標本として平等に選ばれていないと考えられる場合をいう。
(二)推定量の偏りとは、推定すべき量を何らかの理由で高く、または低く推定しすぎている場合をいう。
偏りという用語は悪い意味に聞こえるが、必ずしもそうではない。偏った標本は悪いものだが、偏った推定量のよしあしは状況による。
偏りがないことを不偏︵ふへん、英: unbiased︶と言う。
を使って母数 θ を推定するとしよう。θ の偏りは‥
と定義される。つまり﹁推定量の期待値と本当の値 θ との差﹂。書き換えると
つまり﹁推定量と本当の値 θ との差の期待値﹂。
例えば X1, ..., Xnを独立で同じ分布に従うランダム変数でその期待値をμ, 分散︵不偏分散︶をσ2とし、
を標本平均、
を標本分散とする。するとS2は、σ2の推定量としては偏りがある。なぜなら
しかし標本が正規分布に従う母集団から抽出されたものならば、この﹁偏りのある推定量﹂は、普通用いられる﹁平均二乗誤差﹂という意味では、S2の分母nを n-1 に変えた不偏推定量よりもよい。それでも母分散の不偏推定量の平方根は母標準偏差の不偏推定量ではない。非線形関数f と母数p の不偏推定量U に対してはf(U) は普通f(p) の不偏推定量ではないからである。
偏りのある推定量が不偏推定量よりもよいという極端な例に、次のようなものがある。X が期待値λ のポアソン分布に従うとしよう。推定したいのは
で、不偏推定量に当てはまるただ一つの関数は
である。
X の観察値が100とすると、推定量は1となるが、推定する本当の量は明らかに0に近く、これは反対の極端である。さらにXの観察値が101とすると推定量は-1となってしまうが、推定する量は正でなければならないはずである。最尤推定量︵最尤法で求められる推定量︶
︵これは偏りがある︶は上の不偏推定量よりもよい。なぜならその平均二乗誤差
は、不偏推定量の平均二乗誤差
よりも小さいからである。
この平均二乗誤差は本当の値λ の関数である。最尤推定量の偏りは
ということになる。
最尤推定量の偏りはかなり大きくなるおそれがある。例えば、1からnまで番号を打ったn枚のカードを箱に入れた場合を考える。ランダムに1枚を取り出したところ、番号はX だったとしよう。nが不明ならば、X の期待値が (n+1)/2 だとしても、nの最尤推定量はX であり、nは少なくともX 以上と言えるだけである。この場合、自然な不偏推定量は2X-1 である。