「ロジスティック回帰分析」とは？分析例やオッズ比、重回帰分析との違いなどをサクッと理解したいあなたはこちらをどうぞ

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

本記事の概要 [表示]

ロジスティック回帰分析とは

一言でいうと、

ある現象の発生確率を、複数の因子の組み合わせとそれらの程度からモデル化する方法

です。

でもこれだけだと、

ん？なにそれ？

ってなりますよね。なので、順を追って説明しますね。

ある現象の発生確率 p(X) を調べたいとします。

その原因になりそうなもの（因子・変数・説明変数・独立変数などと呼ばれます）x1, x2,・・・xn を考えます。（因子をまとめて、x = (x1, x2, ・・・, xn)　と書きます）

この現象を、因子が起こったときの条件付き確率として考えると、

p(X) = Probability( 発生 | x )

と表現できます。

また、関数 F(x1, x2, ・・・, xn) を使って、

p(X) = Probability( 発生 | x ) = F (x1, x2, ・・・, xn)

とすると、 F で p(X) をモデル化するとよさそうです。

ロジスティック回帰分析では、この関数 F にロジスティック関数を使います。

ロジスティック関数 f は、一般に、r を変数として、

f = 1 / (1 + exp( – r ) )

という形をしています。

今回の変数は、x1, x2, ・・・, xn の因子群（変数・説明変数・独立変数）です。これを

Z = β0 + β1*x1 + β2*x2 + ・・・ + βn*xn

の線形結合に合成して、

F = 1 / (1 + exp( – Z ) )

として発生確率をモデル化します。

なので、ロジスティック回帰分析では、ロジスティック関数を通じて、因子群と発生確率を結びつけています。

ちなみに、β0, β1, ・・・ , βn は、回帰係数と呼ばれます。

このロジスティック回帰モデルをデータから推定することをロジスティック回帰分析といいます。分析によって回帰係数が求まり、因子の影響と発生確率の関係を知ることができるわけです。

ロジスティック回帰分析の例にはどんなものがあるの？

ロジスティック回帰分析の例としては、「フラミンガム研究」が有名です。

フラミンガム研究は、1948年にアメリカ・フラミンガムで始まった疫学研究で、冠状動脈性疾患のリスク因子につい調べた研究です。

多くの病気の原因は

複数の原因（因子）の組み合わせ
各原因の影響が異なる
同程度の原因でも発症する・しない人がいる

といった特徴があります。

健康な人・患者さんのどちらにも原因があり、その組み合わせや原因の程度も様々だと考えます。その中で、どんな人が発症する確率が高いかを研究しました。

フラミンガムの研究では、原因（因子）には、年齢・血清コレステロール・収縮期血圧・相対体重・ヘモグロビン・喫煙・心電図所見の７つが検討され、これらの原因への曝露と、発症の割合について、ロジスティック回帰分析によってモデル化されました。

そして、得られた回帰係数などの情報から、年齢・コレステロール・血圧が高いほど、発症リスクが高くなる、といったことがわかりました。

このフラミンガムの研究によって、ロジスティック回帰分析の有用性が示されたとも言えます。

効果的な予防ができそうだね〜

自分のデータでも使える方法だ！

回帰係数を求めればいいんだね〜

と思われた方も多いかと思います。たしかに回帰係数の情報は役に立ちますが、個々の因子の影響の大きさを評価しているわけではないんです。なので、

それぞれの因子の影響の大きさはどのくらいなの？

に答えることができるとさらにいいですよね。

フラミンガムの研究でいえば、年齢・コレステロール・血圧のどれが１番影響するの？

といったように、個々の因子の影響の大きさを知りたいわけです。

次はそれらについて解説していきますね。

この先は会員限定になります。

会員の方はログインをお願いいたします。

登録がまだの方は、会員登録をお願いします。

>>> 会員登録はこちら

↓こちら無料で読めます

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)