データ分析の落とし穴?「平均への回帰」と「中心極限定理」の秘密

こんにちは。ゆうせいです。

新人エンジニアとして、日々たくさんのデータに触れているかもしれませんね。データベースから数値を取り出したり、ユーザーの行動を分析したり...。

そんな中で、「ABテストですごく良い結果が出た!」と喜んでいたら、本番導入したら思ったほど効果が出なかった...なんて経験はありませんか?

もしかすると、それは「平均への回帰」という現象かもしれません。そして、その背景には「中心極限定理」という、統計学のとても大切なルールが関わっているんです。

なんだか難しそうな言葉が並びましたが、大丈夫!

データを正しく読み解くエンジニアになるために、知っておくと絶対に役立つ知識です。

今日は、この2つの関係性について、例え話を交えながら一緒に学んでいきましょう!

「平均への回帰」ってなに?

まずは「平均への回帰(へいきんへのかいき)」から見ていきましょう。

これは、ものすごく良い結果や、ものすごく悪い結果といった「極端な」値が出た場合、次に同じことを試したときは、もっと「平均(普通)」に近い結果が出やすくなる、という統計的な現象のことです。

テストの点数で例えてみよう!

想像してみてください。

あなたが学生時代に、100点満点の数学のテストを受けたとします。

あなたの実力は、だいたい「70点」くらいだとしましょう。

  • 1回目のテスト: 運良くヤマが当たりまくって、奇跡的に「95点」を取りました!これはあなたの実力(70点)からすると、かなり「極端に良い」結果ですよね。
  • 2回目のテスト: さて、次も95点を取れるでしょうか? もちろん取れるかもしれませんが、1回目ほどの幸運が続く確率は低いはずです。おそらく、あなたの実力である「70点」に近い点数、たとえば「75点」や「80点」くらいに落ち着く可能性が高いのではないでしょうか。

逆に、1回目にケアレスミスを連発して「40点」という「極端に悪い」結果を取ったとします。

2回目は、1回目ほどひどいミスは繰り返さない可能性が高いので、実力に近い「65点」や「70点」くらいに上がる可能性が高いですよね。

このように、極端な結果が出た次は、良くも悪くも「平均」の方向に戻っていく。

これを「平均への回帰」と呼びます。

なぜ起こるの?

結果というものは、多くの場合「実力(本質的な値)」と「運(偶然の変動)」の2つが混ざり合ってできています。

  • すごく良い結果 = 実力 + ものすごい幸運
  • すごく悪い結果 = 実力 + ものすごい不運

「ものすごい幸運」や「ものすごい不運」は、その名の通り、めったに起こらないから「極端」なわけです。

だから、次に試したときに、前回とまったく同じ「ものすごい幸運」や「不運」が重なる確率はとても低い。

そのため、次はもっと「普通の運(平均的な運)」になりやすく、結果として「実力(平均)」に近い値に戻っていくのです。

エンジニアが注意すべき落とし穴

この「平均への回帰」は、データの分析でよくある「勘違い」の原因になります。

例えば、こんなケースです。

「ユーザーの離脱率が、今月だけ異常に高かった!(極端に悪い結果)」

→ 慌てて、Webサイトのデザインを少し変更する「対策」をした。

→ 翌月、離脱率が下がって、いつもの平均値に戻った。

このとき、「おお!デザイン変更の対策が効いたぞ!」と結論づけてしまうのは早計かもしれません。

もしかすると、デザイン変更はまったく効果がなく、ただ単に「平均への回帰」が起こって、極端に悪かった離脱率がいつもの平均に戻っただけ、という可能性もあるわけです。

1回の極端な結果を見て判断を急ぐと、この落とし穴にハマってしまいますよ!


「中心極限定理」ってなに?

さて、次はもう一つの主役、「中心極限定理(ちゅうしんきょくげんていり)」です。

これは、統計学の世界で最も重要とも言われる、ちょっと不思議な定理です。

すごくざっくり言うと、

「元のデータがどんな形(分布)をしていようと関係ない! そこからランダムにいくつか取ってきて『平均』を出す、という作業を何回も何回も繰り返すと、その『平均』たちが作る分布は、必ず『正規分布』というキレイな釣鐘型に近づいていく」

というルールです。

...と言われても、ピンと来ないですよね。

サイコロで例えてみよう!

ここでも例え話を使いましょう。

1個のサイコロを振ったときに出る目(1〜6)は、どれも同じ確率(1/6)で出ますよね。

これをグラフにすると、平らな形になります。(これは「一様分布」と呼ばれます)

では、ここからが本番です。

「サイコロを5個同時に振って、出た目の『平均値』を計算して記録する」

という作業を、ものすごくたくさん、例えば1000回繰り返したとします。

  • 1回目: (1, 3, 3, 5, 6) → 平均 3.6
  • 2回目: (2, 2, 4, 5, 5) → 平均 3.6
  • 3回目: (1, 1, 2, 3, 4) → 平均 2.2
  • 4回目: (4, 5, 5, 6, 6) → 平均 5.2
  • ...
  • 1000回目: (3, 3, 4, 4, 5) → 平均 3.8

こうして集めた1000個の「平均値」(3.6, 3.6, 2.2, 5.2, ... , 3.8)の分布をグラフにしてみると、どうなると思いますか?

元のサイコロの目は平らな分布だったのに、これらの「平均値」の分布は、なんと、3.5(サイコロの目の期待値)あたりを頂点にした、左右対称のなめらかな「釣鐘型」になるんです!

この魔法のような現象を説明するのが「中心極限定理」です。

元のデータ(サイコロの目)がどんなにいびつな形でも、その「平均」は正規分布に従いやすくなる。これは本当に強力なルールです。

エンジニアにとっての意味

エンジニアの皆さんにとっては、「世の中の多くの現象の『平均値』を扱うとき、その平均値は正規分布に従う、と考えて良い場合が多い」という点が重要です。

例えば、サーバーの応答時間、ユーザーの1日のサイト滞在時間、クリック率など...。

これらの「平均値」を分析するとき、「正規分布」という数学的にとても扱いやすいモデル(釣鐘型のグラフ)を当てはめられる可能性が高くなります。

正規分布が使えると、統計的な予測や、ABテストの結果が「本当に意味がある差なのか(偶然じゃないか)」を判定する「統計的検定」が、とてもやりやすくなるんですよ!


2つの「定理」と「現象」はどう関係してるの?

お待たせしました。

では、「平均への回帰」と「中心極限定理」は、どう繋がっているのでしょうか?

ステップバイステップで考えてみましょう。

  1. 中心極限定理の出番中心極限定理は、「たくさんの独立した偶然(運)が重なり合うと、その結果(や、その平均)は『正規分布』に近づく」ことを示していましたね。
  2. 現実世界のデータ私たちが観測するデータ(さっきのテストの点数や、ABテストの結果など)も、「本来の実力(真の値)」に、「たくさんの小さな偶然の要因(その日の体調、問題の相性、サーバーの混み具合など)」がプラスマイナスされてできたもの、と考えることができます。
  3. データは正規分布に従うつまり、中心極限定理のおかげで、世の中の多くのデータ(あるいは、実力からの「ズレ=誤差」)は、「正規分布」という釣鐘型の分布に従うと考えることができます。
  4. 正規分布の性質さて、正規分布(釣鐘型)のグラフを思い出してください。グラフのどこが一番高くなっていますか?そう、「平均値」のあたり(真ん中)ですよね。そして、平均から離れた「極端な値」(グラフの端っこ)が出る確率は、とても低くなっています。
  5. 「平均への回帰」の正体ここで「平均への回帰」に戻ります。1回目のテストで「95点」という極端な結果が出たとします。これは、正規分布のグラフでいうと、右の「端っこ」の、めったに出ない値が出た、ということです。では、2回目のテストを受けたらどうでしょう?また同じ「端っこ」の極端な値が出る確率と、もっと「真ん中(平均)」に近い、出やすい値が出る確率、どちらが高いでしょうか?もちろん、グラフの山が高い「真ん中(平均)」に近い値が出る確率の方が、圧倒的に高いですよね!だから、一度「端っこ」の極端な値が出たら、次はもっと確率の高い「真ん中(平均)」の方向へ戻りやすい。これが、まさに「平均への回帰」が起こるメカニズムです。

まとめると、こういうことです!

「中心極限定理」が、多くのデータや誤差が「正規分布」に従うという土台を提供してくれます。

そして、その「正規分布」が持つ「平均あたりが一番出やすく、極端な値は出にくい」という性質が、「平均への回帰」という現象を引き起こしているのです。

2つは密接に連携しているんですね!


新人エンジニアとして、どう活かす?

最後に、この知識を新人エンジニアとしてどう活かしていくか、今後の学習指針をお話しします。

1. 「1回のすごい結果」に一喜一憂しない!

まず、これが一番大切です。

分析で、ものすごく良い結果や、ものすごく悪い結果が出たとき。

「やったー!」とか「最悪だ...」と騒ぐ前に、一呼吸おいてください。

「これは、もしかして平均への回帰かも?」

「たまたま運が良かった(悪かった)だけじゃないか?」

と疑う視点を持つことが、データを正しく見る第一歩です。

重要な判断をするときほど、データを複数回取ったり、長期間で見て「平均」がどうなっているかを確認するクセをつけましょう。

2. 今後の学習ステップ

今日の話で「なるほど、統計って面白いかも」と感じたら、ぜひ学習を進めてみてください。

  • 「正規分布」をもう少し詳しく知る:まずは、今日の話のキーとなった「正規分布」の性質(平均値、標準偏差、シグマ)について学ぶと、データのばらつきを数字で表現できるようになります。
  • 「統計的仮説検定」の基本を学ぶ:ABテストの結果が「本当に施策の効果」なのか「偶然(平均への回帰など)の範囲内」なのかを、数学的に判断する手法です。特に「t検定」などは、実務でもよく使われますよ。
  • 「相関と因果」の違いを意識する:「平均への回帰」で説明した「対策をしたら結果が良くなった(ように見えた)」例は、「因果関係(対策が原因)」と「相関関係(たまたま同時に起こった)」を混同しやすい典型例です。この2つを区別することは、エンジニアにとって非常に重要なスキルです。

今回は、データ分析の裏側にある、ちょっと難しいけれど大切なルールについてお話ししました。

「平均への回帰」という落とし穴を知り、「中心極限定理」という強力な背景理論を理解することで、皆さんが目にするデータの見え方が、きっと変わってくるはずです。

こうした「データの見方」を知っているかどうかは、エンジニアとしてキャリアを積んでいく上で、本当に大きな差になります。

ぜひ、今日の話を頭の片隅に置いて、日々の開発やデータ分析に自信を持って取り組んでみてくださいね!

応援しています。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。