なぜ統計学は「絶対」と言わない?0%と100%が存在しない理由

こんにちは。ゆうせいです。

「95%信頼区間」や「有意水準5%」のように、統計学の世界では95%や99%といった中途半端(?)な数字がよく出てきますよね。

「なんで100%ビシッと言い切らないの?」「0%って言っちゃダメなの?」

これは、統計学の本質に触れる、とても素晴らしい疑問です!

結論から言ってしまうと、それは統計学の多くが「一部(サンプル)を見て、全体(母集団)を推測する」という作業を行っているからです。

そして、その「推測」には、「偶然」という要素が必ず入り込むため、「絶対(100%)」や「皆無(0%)」と言い切ることが原理的にできないのです。

この「統計学が100%と言えない理由」を、3つの角度から解説していきますね。


1. サンプル(標本)から全体を「推測」する宿命

私たちが統計学を使う場面を想像してみてください。

「日本人の平均睡眠時間を知りたい!」と思ったとき、日本人全員(約1億2千万人)にアンケートを取るのは現実的でしょうか?

…まず不可能ですよね。

そこで、私たちは「1000人だけ(=サンプル)」にアンケートを取って、その結果から「きっと日本人全体(=母集団)も、これくらいだろう」と推測します。

ここに、100%と言えない最大の理由があります。

例え話:巨大な鍋のスープの味見

あなたは、巨大な寸胴鍋いっぱいに作ったスープ(母集団)の味見をするとします。

スプーンで一杯(サンプル)すくって飲み、「うん、美味しい!」と思いました。

さて、このとき「鍋全体の味が100%完璧だ!」と言い切れるでしょうか?

もしかしたら、鍋の底に塩が固まって沈んでいるかもしれません。

あるいは、たまたまスプーンに入った具材が、最高に美味しい部分だっただけかもしれませんよね。

サンプル(スプーン一杯)は、あくまで全体(鍋)の一部です。

私たちが1000人調査で「平均睡眠時間は7時間でした」と言っても、それは「たまたま集まった1000人」の結果でしかありません。

もしかしたら、日本全体では6時間50分かもしれませんし、7時間10分かもしれません。

この「サンプル(標本)と全体(母集団)との間に生じる避けられないズレ」を標本誤差(ひょうほんごさ)と呼びます。

この誤差が必ず存在するため、「1000人の結果がこうだから、日本全体も100%こうだ!」とは、決して言えないのです。


2. 「偶然」の可能性を0%にできないから

統計学は、「確率論」という考え方に基づいています。

確率の世界で「0%」は「絶対に起こらない(不可能)」を、「100%」は「絶対に起こる(確実)」を意味します。

では、現実世界で「絶対に起こらない」と言い切れることはあるでしょうか?

例え話:コイン投げの奇跡

「このコインはイカサマだ!」とあなたが主張したとします。

それを証明するために100回投げたところ、100回とも表が出ました。

これはもう、イカサマで決まりでしょうか?

…統計学は「ノー」と言います。

なぜなら、「たとえ完璧に公正なコイン(表裏1/2)であっても、偶然に偶然が重なって100回連続で表が出る」可能性は、ゼロ(0%)ではないからです。

その確率は (1/2)^{100} という、天文学的に低い数値ですが、それでも「不可能(0%)」ではありません。

統計的な検定で使われる「p値」は、「もしイカサマでない(=帰無仮説が正しい)としたら、こんな珍しいことが偶然起こる確率」を示します。

p値が0.00001%だとしても、それは0%ではないのです。

「偶然かもしれない」という可能性を、統計学は決して捨てません。

だから「100%イカサマだ」とは言わず、「偶然とは考えにくく、イカサマだと判断するのが妥当だ」という、一歩引いた結論になるのです。


3. 「100%の答え」は「役に立たない」から

実は、統計学でも100%の答えを出すこと自体は可能です。

でも、その答えは、残念ながら「まったく役に立たない」ものになってしまいます。

例え話:100%当たる天気予報

あなたが「明日の東京の最高気温を100%当たるように予測してください」と頼んだとします。

私はこう答えます。

「明日の東京の最高気温は、マイナス100度からプラス100度の間です!」

…この予測、100%当たりますよね。でも、何の役にも立ちません!

私たちが知りたいのは、「100%の確実性」ではなく、「ある程度の確実性を持った、役に立つ情報」です。

だから、統計学では「95%の確率で、明日の最高気温は25度から28度の間でしょう」といった予測(区間推定)をします。

100%の確実性を潔く諦める(95%や99%で妥協する)代わりに、「幅の狭い、意味のある情報」を手に入れる。

これが統計学の現実的で賢い戦略なのです。


(例外)記述統計なら100%がある

最後に一つだけ例外です。

もし、あなたが「日本全体」ではなく、「自分のクラス30人」の平均睡眠時間を知りたいとします。

この場合、30人全員に聞けば、それは「推測」ではなく「事実」ですよね。

この30人(=母集団そのもの)のうち、もし30人全員が「8時間」と答えたら、「このクラスの100%が8時間睡眠だ」と言えます。

このように、集団全体を調査して「その集団の特徴をありのままに記述する」分野を記述統計(きじゅつとうけい)と呼びます。

私たちが普段「統計学」と呼んでイメージする、推測や検定(推測統計)とは少し役割が違うんですね。


まとめと今後の学習指針

統計学が0%や100%と言い切らないのは、

  1. サンプル調査である限り、必ず「誤差」が生まれるから。
  2. 「偶然」の可能性を、確率的に0%にはできないから。
  3. 100%の答えは、役に立たない情報(範囲が広すぎる)になるから。

統計学とは、「絶対」を追い求める学問ではなく、「不確実さ(どれくらい間違っている可能性)を、きちんと数値で管理する」ための、とても誠実で現実的な学問なのです。

この「100%はあり得ない」という考え方は、科学哲学における「反証可能性(はんしょうかのうせい)」という考え方にも通じます。

科学は「これが100%正しい」と証明することはできず、ただ「これが間違っているという証拠が、今のところ見つかっていない」ことしか言えない、という考え方です。

もし興味が湧いたら、そんな哲学的な領域に足を踏み入れてみるのも面白いかもしれませんよ。

最後まで読んでいただき、ありがとうございました。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。