コンテンツにスキップ

フィッシャー情報量

出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索^?: "フィッシャー情報量" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL（2016年10月）

フィッシャー情報量︵フィッシャーじょうほうりょう、英: Fisher information ︶

{\mathcal {I}}_{X}(\theta )

{\mathcal {I}}_{X}(\theta )

は、統計学や情報理論で登場する量で、確率変数

X

X

\theta

\theta

に関して持つ﹁情報﹂の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。

定義[編集]

\theta

\theta

を母数とし、

X

X

を確率密度関数が

f(x|\theta )

f(x|\theta )

で表される確率変数とする。このとき、

\theta

\theta

の尤度関数

L(\theta |x)

L(\theta |x)

は

L(\theta |x)=f(x|\theta )\,

L(\theta |x)=f(x|\theta )\,

で定義され、スコア関数は対数尤度関数の微分

V(x;\theta )={\frac {\partial }{\partial \theta }}\ln L(\theta |x)

V(x;\theta )={\frac {\partial }{\partial \theta }}\ln L(\theta |x)

により定義される。このとき、フィッシャー情報量

{\mathcal {I}}_{X}(\theta )

{\mathcal {I}}_{X}(\theta )

はスコア関数の2次のモーメント

{\begin{aligned}{\mathcal {I}}_{X}(\theta )&=\mathrm {E} [V(x;\theta )^{2}|\theta ]\\&=\mathrm {E} \left[\left.{\biggl (}{\frac {\partial }{\partial \theta }}\ln L(\theta |x){\biggr )}^{2}\right|\,\theta \right]\end{aligned}}

{\begin{aligned}{\mathcal {I}}_{X}(\theta )&=\mathrm {E} [V(x;\theta )^{2}|\theta ]\\&=\mathrm {E} \left[\left.{\biggl (}{\frac {\partial }{\partial \theta }}\ln L(\theta |x){\biggr )}^{2}\right|\,\theta \right]\end{aligned}}

により定義される。紛れがなければ添え字の

X

X

を省略し、

{\mathcal {I}}(\theta )

{\mathcal {I}}(\theta )

とも表記する。なお、

X

X

に関しては期待値が取られている為、フィッシャー情報量は

X

X

の従う確率密度関数

f(x|\theta )

f(x|\theta )

のみに依存して決まる。よって

X

X

と

Y

Y

が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。スコア関数は

\mathrm {E} [V(x;\theta )|\theta ]=0\,

\mathrm {E} [V(x;\theta )|\theta ]=0\,

を満たす事が知られているので、

{\mathcal {I}}_{X}(\theta )=\mathrm {var} (V(x;\theta ))

{\mathcal {I}}_{X}(\theta )=\mathrm {var} (V(x;\theta ))

が成立する。ここで

\mathrm {var}

\mathrm {var}

は分散を表す。また

\ln f(x|\theta )

\ln f(x|\theta )

が二回微分可能で以下の標準化条件

\int {\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )\,dx=0,

\int {\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )\,dx=0,

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。

{\mathcal {I}}(\theta )=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right].

{\mathcal {I}}(\theta )=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right].

このとき、フィッシャー情報量は、

f

f

の対数の

\theta

\theta

についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、

\theta

\theta

についての最尤推定量付近のサポート曲線の﹁鋭さ﹂としてもとらえることができる。例えば、﹁鈍い﹂︵つまり、浅い最大値を持つ︶サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列[編集]

パラメータがN個の場合、つまり、

\mathbf {\theta }

\mathbf {\theta }

がN次のベクトル

\theta =(\theta _{1},\theta _{2},\cdots ,\theta _{N})^{T}

\theta =(\theta _{1},\theta _{2},\cdots ,\theta _{N})^{T}

であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。

{\mathcal {I}}(\mathbf {\theta } )=\mathrm {E} \left[{\frac {\partial }{\partial \mathbf {\theta } }}\ln f(X;\theta ){\frac {\partial }{\partial \mathbf {\theta } ^{T}}}\ln f(X;\theta )\right].

{\mathcal {I}}(\mathbf {\theta } )=\mathrm {E} \left[{\frac {\partial }{\partial \mathbf {\theta } }}\ln f(X;\theta ){\frac {\partial }{\partial \mathbf {\theta } ^{T}}}\ln f(X;\theta )\right].

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。

{\left({\mathcal {I}}\left(\theta \right)\right)}_{i,j}=\mathrm {E} \left[{\frac {\partial }{\partial \theta _{i}}}\ln f(X;\theta ){\frac {\partial }{\partial \theta _{j}}}\ln f(X;\theta )\right].

{\left({\mathcal {I}}\left(\theta \right)\right)}_{i,j}=\mathrm {E} \left[{\frac {\partial }{\partial \theta _{i}}}\ln f(X;\theta ){\frac {\partial }{\partial \theta _{j}}}\ln f(X;\theta )\right].

フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

p

p

個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、

\theta _{i}

\theta _{i}

と

\theta _{j}

\theta _{j}

は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質[編集]

フィッシャー情報量は

0\leq {\mathcal {I}}(\theta )<\infty \,

0\leq {\mathcal {I}}(\theta )<\infty \,

を満たす。また

X

X

，

Y

Y

が独立な確率変数であれば、

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta )

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta )

　(フィッシャー情報量の加算性︶が成立する。すなわち、﹁

(X,Y)

(X,Y)

が

\theta

\theta

に関して持つ情報の量﹂は﹁

X

X

が

\theta

\theta

に関して持つ情報の量﹂と﹁

Y

Y

が

\theta

\theta

に関して持つ情報の量﹂の和である。よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である︵観察が独立である場合︶。

Cramér–Raoの不等式[編集]

\theta

\theta

の任意の不偏推定量

{\hat {\theta }}

{\hat {\theta }}

は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす‥

\mathrm {var} ({\hat {\theta }})\geq {\frac {1}{{\mathcal {I}}(\theta )}}\,

\mathrm {var} ({\hat {\theta }})\geq {\frac {1}{{\mathcal {I}}(\theta )}}\,

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数

X

X

への依存関係を明示すると、

{\displaystyle {\mathcal {I}}_{X}(\theta )\geq {\frac {1}{\mathrm {var} ({\hat {\theta }}(

{\mathcal {I}}_{X}(\theta )\geq {\frac {1}{\mathrm {var} ({\hat {\theta }}(X))}}\,

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数

\theta

\theta

に近い値を出しやすいので、﹁よい﹂推定量であると言える。

\theta

\theta

を﹁推定する﹂という行為は、﹁よい﹂推定量

{\displaystyle {\hat {\theta }}(

{\hat {\theta }}(X)

を使って

\theta

\theta

を可能な限り復元する行為に他ならないが、上の不等式は

X

X

から算出されたどんな不偏推定量であっても

X

X

が元々持っている﹁情報﹂以上に﹁よい﹂推定量にはなりえない事を意味する。

十分統計量との関係[編集]

一般に

{\displaystyle T=t(

T=t(X)

が統計量であるならば、

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

が成立する。すなわち、﹁

X

X

から計算される値

{\displaystyle T=t(

T=t(X)

が持っている

\theta

\theta

の情報﹂は﹁

X

X

自身が持っている

\theta

\theta

の情報﹂よりも大きくない。上式で等号成立する必要十分条件は

T

T

が十分統計量であること。これは

{\displaystyle T(

T(X)

が

\theta

\theta

に対して十分統計量であるならば、ある関数

f

f

および

g

g

が存在して

{\displaystyle f(X;\theta )=g(T(

f(X;\theta )=g(T(X),\theta )h(X)

が成り立つ︵ネイマン分解基準︶事を使って証明できる。

カルバック・ライブラー情報量との関係[編集]

X_{\theta }

X_{\theta }

を母数

{\vec {\theta }}=(\theta _{1},\ldots ,\theta _{n})

{\vec {\theta }}=(\theta _{1},\ldots ,\theta _{n})

を持つ確率変数とすると、カルバック・ライブラー情報量

D_{\mathrm {KL} }

D_{\mathrm {KL} }

とフィッシャー情報行列は以下の関係が成り立つ。

D_{\mathrm {KL} }(X_{{\vec {\theta }}+{\vec {h}}}\|X_{\vec {\theta }})={\frac {{}^{t}{\vec {h}}\cdot {\mathcal {I}}({\vec {\theta }})\cdot {\vec {h}}}{2}}+o(|{\vec {h}}|^{2})

D_{\mathrm {KL} }(X_{{\vec {\theta }}+{\vec {h}}}\|X_{\vec {\theta }})={\frac {{}^{t}{\vec {h}}\cdot {\mathcal {I}}({\vec {\theta }})\cdot {\vec {h}}}{2}}+o(|{\vec {h}}|^{2})

すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。︵0次、1次の項は0︶。

具体例[編集]

ベルヌーイ分布[編集]

ベルヌーイ分布は、確率θ でもたらされる﹁成功﹂と、それ以外の場合に起きる﹁失敗﹂という2つの結果をもたらす確率変数が従う分布である︵ベルヌーイ試行︶。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。 n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、

{\begin{aligned}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln {f(A;\theta )}&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln \left[\theta ^{A}(1-\theta )^{B}{\frac {(A+B)!}{A!B!}}\right]\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\left[A\ln(\theta )+B\ln(1-\theta )\right]\\&=-{\frac {A}{\theta ^{2}}}-{\frac {B}{(1-\theta )^{2}}}\end{aligned}}

{\begin{aligned}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln {f(A;\theta )}&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln \left[\theta ^{A}(1-\theta )^{B}{\frac {(A+B)!}{A!B!}}\right]\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\left[A\ln(\theta )+B\ln(1-\theta )\right]\\&=-{\frac {A}{\theta ^{2}}}-{\frac {B}{(1-\theta )^{2}}}\end{aligned}}

であるから、

{\begin{aligned}{\mathcal {I}}(\theta )&=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln(f(A;\theta ))\right]\\&={\frac {n\theta }{\theta ^{2}}}+{\frac {n(1-\theta )}{(1-\theta )^{2}}}\end{aligned}}

{\begin{aligned}{\mathcal {I}}(\theta )&=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln(f(A;\theta ))\right]\\&={\frac {n\theta }{\theta ^{2}}}+{\frac {n(1-\theta )}{(1-\theta )^{2}}}\end{aligned}}

となる。但し、Aの期待値はn θ、B の期待値はn (1-θ )であることを用いた。つまり、最終的な結果は、

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}},

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}},

である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。

ガンマ分布[編集]

形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は

{\mathcal {I}}(\alpha ,\beta )={\begin{pmatrix}\psi '(\alpha )&{\frac {1}{\beta }}\\{\frac {1}{\beta }}&{\frac {\alpha }{\beta ^{2}}}\end{pmatrix}}

{\mathcal {I}}(\alpha ,\beta )={\begin{pmatrix}\psi '(\alpha )&{\frac {1}{\beta }}\\{\frac {1}{\beta }}&{\frac {\alpha }{\beta ^{2}}}\end{pmatrix}}

で与えられる。但し、ψ(α)はディガンマ関数を表す。

正規分布[編集]

平均μ、分散σ²の正規分布N(μ, σ²)において、フィッシャー情報行列は

{\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {1}{2(\sigma ^{2})^{2}}}\end{pmatrix}}

{\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {1}{2(\sigma ^{2})^{2}}}\end{pmatrix}}

で与えられる。

多変量正規分布[編集]

N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。

\mu (\theta )={\begin{pmatrix}\mu _{1}(\theta ),\mu _{2}(\theta ),\cdots ,\mu _{N}(\theta )\end{pmatrix}},

\mu (\theta )={\begin{pmatrix}\mu _{1}(\theta ),\mu _{2}(\theta ),\cdots ,\mu _{N}(\theta )\end{pmatrix}},

であるとし、

\Sigma (\theta )

\Sigma (\theta )

が

\mu (\theta )

\mu (\theta )

の共分散行列であるとするなら、

X

X

～

N(\mu (\theta ),\Sigma (\theta ))

N(\mu (\theta ),\Sigma (\theta ))

のフィッシャー情報行列、

{\displaystyle {\mathcal {I}}_{m,n}\,(0\leq ;m,n<

{\mathcal {I}}_{m,n}\,(0\leq ;m,n<N)

の成分は以下の式で与えられる。

{\mathcal {I}}_{m,n}={\frac {\partial \mu }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu ^{\top }}{\partial \theta _{n}}}+{\frac {1}{2}}\mathrm {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

{\mathcal {I}}_{m,n}={\frac {\partial \mu }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu ^{\top }}{\partial \theta _{n}}}+{\frac {1}{2}}\mathrm {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

ここで、

(..)^{\top }

(..)^{\top }

はベクトルの転置を示す記号であり、

\mathrm {tr} (..)

\mathrm {tr} (..)

は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。

{\frac {\partial \mu }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}},&{\frac {\partial \mu _{2}}{\partial \theta _{m}}},&\cdots ,&{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{pmatrix}}

{\frac {\partial \mu }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}},&{\frac {\partial \mu _{2}}{\partial \theta _{m}}},&\cdots ,&{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{pmatrix}}

{\frac {\partial \Sigma }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\\\{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{pmatrix}}.

{\frac {\partial \Sigma }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\\\{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{pmatrix}}.

脚注[編集]

関連項目[編集]

「https://ja.wikipedia.org/w/index.php?title=フィッシャー情報量&oldid=98516156」から取得

隠しカテゴリ:

出典を必要とする記事/2016年10月