【新人エンジニア必読】データは嘘をつかない?ポアンカレとパン屋の物語から学ぶ「疑う力」
こんにちは。ゆうせいです。
新人エンジニアの研修を担当されているみなさん、日々の講義お疲れ様です。データ分析やテスト工程の講義をしていると、受講生からこんな反応をもらうことはありませんか。
「テストデータは全部パスしました。だからこのシステムは完璧です」
「平均値が目標を超えているので、パフォーマンスに問題はありません」
そんなとき、私はいつも少し不安になります。数字は嘘をつきませんが、数字の見せ方には罠があるからです。
今日は、そんな「データの裏側」を見抜く大切さを教えるために、ある有名な数学者のエピソードを紹介します。100年以上前のフランスで起きた、数学者ポアンカレと、あるズル賢いパン屋さんの物語です。
この話をすれば、新人エンジニアたちのデータを見る目は、きっと探偵のように鋭くなるはずです。
天才数学者 vs ズル賢いパン屋
昔々、アンリ・ポアンカレというフランスの偉大な数学者がいました。彼はカオス理論の基礎を築いたほどの天才ですが、日常生活ではとても几帳面な人でした。
ポアンカレは毎日、近所のパン屋さんで「1kg(1000g)のパン」を買うのが日課でした。
しかし、あるとき彼は疑念を抱きます。
「このパン、どうも軽い気がするな」
普通の客なら、手に持った感覚だけで文句を言うか、諦めてしまうでしょう。でも、彼は数学者です。感情ではなくデータで戦うことにしました。
彼は毎日、買ってきたパンの重さをキッチンスケールで測り、ノートに記録し続けたのです。
第1章:暴かれた不正
1年後、ポアンカレは記録したデータをグラフにしました。
すると、そこには驚くべき事実が浮かび上がりました。
パンの重さの分布が、「950gを中心とした山形」になっていたのです。
ここで少し専門用語の解説をしましょう。
工場の製品や自然界の多くのデータは、平均値を中心に左右対称の釣鐘型(ベルのような形)になります。これを「正規分布(せいきぶんぷ)」といいます。
ポアンカレが描いたグラフもきれいな正規分布でした。しかし、その頂点(平均値)は1000gではなく、明らかに950gにあったのです。
これは、パン屋が製造ミスをしたのではありません。最初から小麦粉をケチって、意図的に小さく作っていた動かぬ証拠でした。
ポアンカレは警察にこのデータを提出し、パン屋は不正を認め、厳重注意を受けました。
「これからは心を入れ替えて、ちゃんと1000gのパンを焼きます!」
パン屋はそう約束しました。
第2章:パン屋の反撃、そして完全論破
さて、物語はここで終わりません。ここからがエンジニアにとって本当の学びです。
その後もポアンカレはパンを買い続け、重さを測り続けました。
すると不思議なことに、パンの重さは毎回しっかりと1000gを超えていました。平均しても1000g以上あります。
パン屋は改心したのでしょうか。
しばらくして、ポアンカレは再び警察に通報しました。
「あのパン屋は、まだ不正を続けています」
なぜわかったと思いますか。
ポアンカレが再びデータをグラフにしてみると、今度は不思議な形の分布になっていました。
正規分布の「右半分だけ」が切り取られたような形をしていたのです。
本来、正直に1000gを目指してパンを焼けば、1000gより重いパンもあれば、誤差で990gや980gの軽いパンもできるはずです。それが自然なバラつき、つまり正規分布です。
しかし、ポアンカレの手元には「重いパン」しか届いていませんでした。軽いパンが一つもないのは不自然すぎます。
ポアンカレは見抜いたのです。
「パン屋は、製造工程自体は何も変えていない(相変わらず950g狙いで作っている)。ただ、焼き上がったパンの中から、たまたま大きく焼けた重いパンを選り分けて、私に渡しているだけだ」
つまり、他の一般客には、相変わらず軽いパンが売られていたわけです。
データの「平均値」だけを見れば正常でしたが、「分布の形」を見ることで、作為的な操作(バイアス)が見抜かれてしまったのです。
エンジニアとして何を学ぶべきか
このエピソードは、私たちに非常に重要な教訓を与えてくれます。
それは、「平均値だけを信じるな」ということです。
例えば、Webサイトの表示速度を計測したとします。
「平均表示時間は1秒です。高速です!」という報告があったとしても、もしその内訳が、
「9割の人は0.1秒で表示されるが、1割の人は10秒待たされている」
という状態だったらどうでしょうか。これはシステムとして大問題ですよね。
ポアンカレのように、データ全体の「分布(ヒストグラム)」を見なければ、本当の姿は見えてきません。
この考え方のメリットとデメリット
この「ポアンカレの視点」を持つことの良し悪しを整理しておきましょう。
メリット:隠れた問題を発見できる
平均値という化粧を落とした、データの素顔を見ることができます。
システム障害の予兆、テストデータの偏り、あるいは今回のような意図的な不正を見抜く力が身につきます。「何かおかしい」という違和感を、論理的に説明できるようになるのが最大の強みです。
デメリット:手間とコストがかかる
平均値を出すのは簡単ですが、分布を調べて詳細に分析するには時間と労力がかかります。
すべての事象に対して「これは怪しい!」と疑ってかかると、作業が進まなくなってしまいます。ここぞという重要な局面で使うべき思考法と言えるでしょう。
今後の学習の指針
いかがでしたか。
ポアンカレとパン屋の話は、単なる昔話ではありません。現代のデータサイエンスや品質管理に通じる本質的な話です。
この話をきっかけに、新人エンジニアのみなさんには以下のステップへ進むよう伝えてみてください。
まずは、手元のデータを「可視化」する習慣をつけることです。
エクセルやプログラムを使って、単に平均 を計算するだけでなく、ヒストグラム(度数分布図)を描いてみてください。
その山は左右対称ですか。
どこかで不自然に途切れていませんか。
山が二つあったりしませんか。
その「形」にこそ、システムや現実世界の真実が隠されています。
パン屋の嘘を見抜いたポアンカレのように、データを通じて真実を見抜けるエンジニアを目指していきましょう。
それでは、またお会いしましょう。
セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。