直感はあてにならない?研修で使える「ベイズの定理」と確率の罠
こんにちは。ゆうせいです。
みなさんは、ご自身の「直感」をどれくらい信じていますか?経験則に基づく直感は素晴らしいものですが、数字や確率の世界では、その直感が私たちを大きく裏切ることがあります。
今回は、論理的思考力やデータ分析の研修で非常に盛り上がるテーマ、「ベイズの定理」についてお話ししましょう。
名前だけ聞くと難しそうに感じるかもしれませんが、心配はいりません。これは簡単に言えば「新しい情報が入ったときに、予想をどうアップデートするか」というお話です。高校生にもわかるように、そして研修生がアッと驚くような構成で解説していきますね。
なぜベイズの定理を学ぶのか
ビジネスの現場では、日々さまざまな予測や判断が求められますよね。
たとえば、「この施策が成功する確率はどれくらいか?」といった問いです。ここに新しいデータ(市場調査の結果など)が加わったとき、その確率をどう修正すべきでしょうか。
このとき、直感だけで判断すると「認知バイアス」という罠に陥りやすくなります。ベイズの定理は、この罠を回避し、論理的に確率を導き出すための強力な武器になるのです。
今回は、ある「病気の検査」を例にして、直感と実際の確率がいかにズレるかを見ていきましょう。
98%の精度でも信用できない?驚きの思考実験
研修で受講者に問いかけてみてください。こんなシチュエーションがあったとします。
ある病気があります。この病気にかかっている人は、全体の です。つまり、1万人に1人という非常に稀な病気ですね。
さて、この病気を判定する検査キットの性能は以下の通りです。
- 病気の人を正しく「陽性」と判定する確率:
- 病気でない人を正しく「陰性」と判定する確率:
かなり優秀な検査に見えますよね。
ここで、ある人がこの検査を受けたところ、結果は「陽性」でした。
では質問です。この人が本当に病気にかかっている確率はどれくらいだと思いますか?
直感的には「98%の精度なんだから、ほとんど間違いなく病気だろう」と思いませんか?あるいは、低く見積もっても80%くらいでしょうか。
実は、答えを知るとみなさん驚愕します。
実際に計算してみましょう
ここで登場するのがベイズの定理です。日本語では「条件付き確率」とも呼ばれる考え方を使います。
計算式と聞くと身構えてしまうかもしれませんが、単純な割り算で考えれば大丈夫です。
私たちが知りたいのは、「陽性と診断された」という条件の中で、「本当に病気である」人の割合ですよね。
数式で表すと、以下のようになります。
本当に病気である確率 陽性かつ病気である確率
陽性と診断される確率
今回の例では、問題の設定として「陽性と診断される確率(全体の陽性率)」があらかじめ とわかっているものとして計算してみましょう。
分子となる「陽性かつ病気である確率」を計算します。
病気の罹患率は (つまり
)で、そのうち
が陽性判定を受けるわけですから、掛け算をします。
これが、実際に病気で、かつ検査も陽性だった人の割合です。
では、仕上げの割り算です。これを、全体の陽性率である (
)で割ります。
これをパーセンテージに直すと、なんと です。
約 ということですね。
なぜ直感とこれほどズレるのか
驚きましたか?「陽性」と言われたのに、本当に病気である確率はわずか0.05%。つまり、99.95%の確率で「検査の間違い(偽陽性)」だということです。
なぜこんなことが起きるのでしょうか。
理由は「元の病気の数が圧倒的に少ないから」です。
1万人の中に病気の人はたった1人しかいません。一方で、健康な人は9999人もいます。
検査の精度が完璧でない限り、健康な9999人のうちの何割かが間違って「陽性」判定を受けてしまいます。母数があまりに大きいため、この「間違って陽性と言われた健康な人」の人数が、「正しく陽性と言われた病気の人」の人数を遥かに上回ってしまうのです。
これを専門用語で「基準率の錯誤」と呼びます。元の確率(基準率)を無視して、検査の精度(98%など)だけに目が向いてしまう心理的な罠ですね。
この計算、納得はできたけれど「やっぱり数字ばかりだとイメージしにくい!」と感じた方もいらっしゃるのではないでしょうか。
そんなときに役立つ最強の図解ツールがあります。それが「混同行列(コンフュージョン・マトリックス)」です。
名前は少し難しそうですが、要するに「予想と結果の答え合わせ表」のことです。これを作ると、なぜあんなに確率が低くなったのかが、一発で目に飛び込んできます。
今回は、人口を「100万人」と仮定して、具体的な人数をこの表に当てはめてみましょう。
混同行列(答え合わせ表)を見てみよう
確率(パーセント)のままだと実感が湧きにくいので、具体的な人数に直して表を作成しました。
前提: 100万人の街でこの検査を行ったとします。
| 実際は「病気」 | 実際は「健康」 | 合計 | |
| 検査結果「陽性」 | 98人 (正解!) | 199,980人 (間違い:偽陽性) | 200,078人 (陽性と言われた人) |
| 検査結果「陰性」 | 2人 (見逃し:偽陰性) | 799,920人 (正解!) | 799,922人 (陰性と言われた人) |
| 合計 | 100人 (本当に病気の人) | 999,900人 (健康な人) | 1,000,000人 |
どうでしょうか?この表を見ると、状況が一変して見えませんか?
表から読み解く「2つの驚き」
この表を作ると、言葉で説明するよりもはるかに明確に、2つのポイントが見えてきます。
1. 「本当に病気の人」はとても少ない
表の「縦の合計」を見てください。100万人もいるのに、本当に病気の人はたったの 100人 です。これが「罹患率 」の正体です。
2. 「間違いの陽性」が圧倒的に多い
ここが最大のポイントです。「検査結果『陽性』」の行(横の列)を見てください。
- 正しく発見された病気の人: 98人
- 間違って陽性とされた健康な人: 199,980人
約20万人もの健康な人が、検査のミス(あるいは仕様)によって「あなた陽性ですよ」と言われてしまっています。
前回の問題は、「陽性と言われた人(合計200,078人)」の中で、「本当に病気の人(98人)」はどれくらいの割合か? という問いでした。
計算式で見るとこうなります。
これなら、「ああ、確かに くらいしかいないな」と直感的に納得できるはずです。
専門用語解説:TP, FP, FN, TN
データサイエンスの現場では、この表の4つのマス目にそれぞれ名前がついています。余裕があれば覚えておくと、かっこいいですよ!
- TP (True Positive / 真陽性)
- 表の左上(98人)。「病気の人を、正しく陽性と当てた」ケース。ここが多いほど優秀な検査です。
- FP (False Positive / 偽陽性)
- 表の右上(199,980人)。「健康な人を、間違って陽性と言ってしまった」ケース。今回の確率の罠の原因はここです。別名「狼少年」的なエラーです。
- FN (False Negative / 偽陰性)
- 表の左下(2人)。「病気の人を、間違って陰性(健康)と言って見逃した」ケース。医療の現場では、これが一番怖いミスとされます。
- TN (True Negative / 真陰性)
- 表の右下(799,920人)。「健康な人を、正しく陰性と判定した」ケース。
メリットとデメリット
この話を研修に取り入れるメリットとデメリットを整理しておきましょう。
メリット
- クリティカルシンキングが身につく数字の裏側にあるロジックを読み解く力が養われます。
- データの見方が変わる「精度99%のAI」といった謳い文句に対し、「元のデータ量は?」「誤検知の割合は?」と冷静に質問できるようになります。
デメリット
- 計算アレルギーへの配慮が必要少数や確率の計算が出てくるだけで拒否反応を示す受講者もいます。数式よりも「人数のイメージ」で図解してあげると良いでしょう。
- 直感との乖離が激しい納得してもらうまでに時間がかかることがあります。丁寧に解説する根気が必要です。
今後の学習の指針
いかがでしたでしょうか。
ベイズの定理は、迷惑メールのフィルターや、自動運転の位置推定など、最新のテクノロジーの裏側でも大活躍しています。
まずは、身の回りの「確率」に目を向けてみてください。「成功率80%」と言われたとき、その前提条件は何なのか?新しい情報によってその確率はどう変化するのか?
そうした視点を持つことが、データに強い人材になるための第一歩です。
ぜひ、次回の研修でこの「直感vs確率」の問いかけを使ってみてください。きっと受講者の目の色が変わるはずですよ!