ロジスティック回帰
ロジスティック回帰︵ロジスティックかいき、英: Logistic regression︶は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年にデイヴィッド・コックスが発表した[1]。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる[要出典]。
モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learnなどでは、パラメータを決める最適化問題で確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。
概要
編集
ロジスティック回帰モデルは以下のような形式である。xが入力で、pが確率︵出力︶、αとβがパラメータ。
ここで、n 個のユニットと共変動 Xがあり、以下のような関係にある。
結果のオッズ︵1から確率を引いたもので確率を割った値︶の対数は、説明変数 Xiの線形関数としてモデル化される。これを次のようにも表せる。
単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。
は標準シグモイド関数。
パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、
は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。
このモデルの拡張として多分割︵polytomous︶ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。
応用
編集社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。
2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。
例
編集脚注
編集- ^ Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242.
参考文献
編集- Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
- Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.
- Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.
- Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.
- Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.