【ロジスティック回帰】「オッズ」の正体とは?確率を勝利の倍率に変換する数式ツアー
こんにちは。ゆうせいです。
みなさんは、競馬やスポーツベッティングなどの「ギャンブル」に興味はありますか?
そこで必ず耳にする言葉がありますよね。そう、「オッズ」です。
「単勝オッズ 3.0倍!」
この言葉を聞くと、「勝てば賭け金が3倍になるんだな」と直感的にわかります。実は、私たちがデータ分析で使う「ロジスティック回帰分析」の世界でも、このオッズという考え方が非常に重要な鍵を握っているんです。
ロジスティック回帰は、あるイベントが発生する「確率」を予測するものですが、その計算の裏側では、確率ではなく「オッズ」を使って直線の式を作っているのです。
「えっ、確率はわかるけど、オッズって何?」
「数式が出てくると頭が痛くなる…」
そんな新人エンジニアのみなさんのために、今日はロジスティック回帰の心臓部である「オッズを求める式」を、途中式を省略せずにゆっくりと解説していきます。
ただの数式変形ではありません。これがわかると、データの「効き目」がどれくらいあるのか、肌感覚で理解できるようになりますよ。
そもそもオッズってなに?
計算に入る前に、オッズの定義をはっきりさせておきましょう。
確率は「全体の中で、それが起きる割合」ですが、オッズは「起きる確率と、起きない確率の比」です。
つまり、「勝ち」と「負け」のバランスを表したものです。
数式で書くとこうなります。
確率を とすると、
オッズ
言葉で翻訳すると、
オッズ (起きる確率)
(起きない確率)
たとえば、勝率が80%( )のチームがいるとします。
負ける確率は20%( )ですよね。
このときのオッズは、
となります。
これは、「負ける可能性に比べて、勝つ可能性が4倍高い」ということを意味しています。これがオッズの正体です。
ロジスティック回帰からオッズを導き出そう
では、いよいよ本題の計算ツアーに出発しましょう。
ロジスティック回帰分析では、確率 を求めるために、次のような「シグモイド関数」という式を使っています。ここからスタートです。
ステップ1:基本の式(スタート地点)
確率
ちょっと複雑に見えるので、右上の (直線の式)をまとめて
と置いてシンプルにしましょう。
確率
私たちのゴールは、この式を変形して、さきほどの「オッズ( )」の形を作ることです。
ステップ2:「起きない確率」を計算する
オッズの分母にある (起きない確率)を先に計算しておきましょう。
通分(分母を揃えること)がポイントです。
1 という数字は、分数で書くと同じですよね。
分子(上の部分)を引き算します。 と
で消えますね。
これが「起きない確率」の正体です。
ステップ3:割り算をしてオッズを作る
材料は揃いました。
いよいよ、オッズの定義通りに「起きる確率」を「起きない確率」で割り算します。
オッズ
これに、さっきの式を代入します。分数の割り算なので、少し大きく書きますね。
オッズ
うわっ、分数の中に分数が…と嫌にならないでください。
よく見ると、上の分母も、下の分母も、同じ ですよね?
分数の割り算では、同じ分母同士はきれいに打ち消し合って消えます(約分できます)。
すると、残るのはこれだけです。
オッズ
ステップ4:指数法則で整える(ゴール!)
あと一歩です。
数学のルール(指数法則)で、「分母にあるマイナス乗」は、「分子に持っていくとプラス乗になる」というものがありました。
つまり、 は、単なる
に変身します。
オッズ
最初に を
と置いていたのを元に戻しましょう。
オッズ
これがゴールです!
あんなに複雑だった分数の式が、こんなにスッキリした形になりました。
この結果は何を意味しているの?
計算お疲れ様でした。でも、大事なのはここからです。
「オッズが になる」ということは、エンジニアにとってどんな意味があるのでしょうか。
これは、「変数 が1増えると、オッズが何倍になるか」がわかるということを意味します。
たとえば、営業成績のデータ分析をしていて、
が「訪問回数」、係数
が「0.693」だったとします。
(ちなみに、 は約2です)
これは、「訪問回数が1回増えるごとに、成約のオッズ(成約しやすさ)は2倍になる(掛け算される)」ということを表しています。
ただの足し算ではなく、「掛け算(倍々ゲーム)」で効いてくる。
これが、ロジスティック回帰のオッズが持つパワフルな性質なんです。
メリットとデメリット
オッズという考え方を導入するメリットとデメリットを整理しましょう。
メリット
- 影響力がわかりやすい:「この薬を飲むと、治るオッズが3倍になります」といったように、要因の影響力を「倍率(オッズ比)」として直感的に説明できます。
- 計算が楽になる:オッズに対数(log)をとると
となり、単純な直線の式(線形回帰)と同じ扱いができるようになります。これがロジスティック回帰の計算の根幹です。
デメリット
- 確率と混同しやすい:「オッズが2倍」になっても、「確率が2倍」になるわけではありません。ここを勘違いすると、お客様に過大な期待をさせてしまうので注意が必要です(特に元の確率が高い場合、オッズが上がっても確率は少ししか上がりません)。
- 直感とのズレ:日常会話で「50%の確率」とは言いますが、「オッズが1だ」とは言いませんよね。慣れるまでは頭の切り替えが必要です。
まとめ:オッズは確率を「直線」にする魔法
ここまで読んでいただき、ありがとうございます。
複雑な計算の森を抜けて、シンプルなゴールにたどり着けましたね。
- ロジスティック回帰の確率は、シグモイド関数(S字カーブ)。
- それを「オッズ」に変換すると、
というシンプルな形になる。
- これは、要因が増えると結果が「倍々」で効いてくることを表している。
新人エンジニアのみなさんが、ロジスティック回帰の結果画面で係数(coefficient)を見るときは、
「ああ、これはオッズを何倍にするパワーを持っているんだな」
と思い出してみてください。それだけで、数字の読み方がプロっぽくなりますよ。
今後の学習の指針
今回の式変形で、オッズの対数をとったもの( )を「ロジット(logit)」と呼びます。
次は、このロジットと、以前学んだ「線形回帰」がどうつながっているのかを調べてみてください。「なんだ、結局やってることは直線を引くことだったのか!」と、点と点がつながる感動が待っていますよ。
それでは、また次回の記事でお会いしましょう!