【実話】統計学はビール工場から始まった?T検定の生みの親「ゴセット」に学ぶ現場の知恵
こんにちは。ゆうせいです。
新人エンジニアの研修を担当されているみなさん、統計学の講義で受講生が退屈そうにしていませんか。
「標準偏差? 正規分布? それが僕らの仕事と何の関係があるんですか」
そんな顔をされたら、ぜひ話してあげてほしい物語があります。それは、世界で最も有名な統計手法の一つである「T検定」が、実は大学の研究室ではなく、ある「ビール工場」の現場で生まれたという実話です。
今日は、美味しいビールを造るために奮闘した一人のエンジニア、ウィリアム・ゴセットのエピソードを通じて、T検定の心髄をわかりやすく解説します。
これを読めば、新人さんたちも「統計学って、意外と泥臭くてカッコいいな」と感じてくれるはずです。
ビール工場の悩めるエンジニア
舞台は19世紀末のアイルランド。黒ビールで有名な「ギネスビール」の工場です。
そこに、一人の優秀な技術者が入社しました。彼の名前は、ウィリアム・ゴセット。彼は醸造プロセスの管理を任されていました。
当時、ギネス社は「世界一美味しいビールを、常に同じ品質で提供したい」と考えていました。そのためには、原材料である大麦やホップの品質チェックが欠かせません。
しかし、ゴセットは大きな壁にぶつかります。
「品質チェックのために、すべての原材料を使い切るわけにはいかない」
当たり前ですよね。検査のために大麦を全部使ってしまったら、ビールが作れません。かといって、ほんの数粒調べただけで「この大麦は全部合格!」と判断するのは危険すぎます。
当時の統計学では、「サンプル数が大量にあること」が大前提でした。数千、数万というデータがあって初めて、正確な分析ができるとされていたのです。
しかし、現場のゴセットが扱えるデータは、せいぜい数個から十数個。
「データが少ない現場でも、科学的に正しい判断を下すにはどうすればいいんだ」
彼は工場の片隅で計算用紙と格闘し続けました。そしてついに、少ないデータ(小標本)専用の新しい統計理論を編み出したのです。
なぜ「ゴセット検定」と呼ばれないのか
ゴセットが開発したこの手法は、現在では「T検定(ティーけんてい)」と呼ばれています。
ここで勘のいい新人さんは思うかもしれません。「作ったのがゴセットさんなら、ゴセット検定と呼ぶべきじゃないですか?」と。
実はここにも、企業戦士ならではの涙ぐましい事情がありました。
当時、ギネス社は醸造技術の秘密が他社に漏れるのを極端に恐れていました。そのため、社員が本名で論文を発表することを禁止していたのです。
しかし、ゴセットはこの発見があまりにも有益なので、どうしても世の中に発表したいと思いました。そこで彼は会社にお願いして、ある条件付きで論文の発表を許可してもらいました。
その条件とは、「本名を隠すこと」。
彼はペンネームとして「Student(スチューデント)」という名前を使いました。
「私はただの、統計学を学ぶ一介の学生(スチューデント)に過ぎません」
そんな謙虚な意味を込めたのかもしれません。この論文は大発見として世界中に広まり、彼の理論は「スチューデントのT検定」と呼ばれるようになったのです。
T検定は何をしているのか?
では、ゴセットが発明したT検定とは、一体どんな仕組みなのでしょうか。
専門的な数式は抜きにして、イメージで掴んでもらいましょう。
私たちが「平均値」を比較するとき、データがたくさんあれば「正規分布」という綺麗な山の形を想定できます。
しかし、データが少ない(例:5回しかテストしていない)場合、その平均値が本当に正しいのか、偶然偏っただけなのか、自信が持てませんよね。
ゴセットは考えました。
「データが少ないときは、正規分布よりも、もっと裾野(すその)が広い山を想定すべきだ」
裾野が広いということは、「めったに起きないような極端な値も、データが少ないときは起こりうるよね」という慎重な姿勢を表しています。
この「慎重な形の山」を「T分布」と呼びます。
T検定を使うと、たとえば次のような問いに答えることができます。
- A農場の大麦と、B農場の大麦、糖度に「意味のある差(有意差)」はあるか?
- 変更前のシステムと、変更後のシステム、レスポンスタイムは本当に速くなったか?
単に「平均値が高いから勝ち!」ではなく、「データのバラつきやサンプル数を考慮しても、偶然ではなく本当に差があると言えるか?」をジャッジしてくれるのです。
現場で役立つメリットとデメリット
このエピソードとともに、実務での使いどころも教えてあげましょう。
メリット:少ないデータで戦える
これが最大の強みです。
WebサービスのABテストや、工場の品質管理など、コストや時間の制約でデータを少ししか集められない場面でも、統計的に信頼できる判断が下せます。まさに現場のために作られたツールです。
デメリット:絶対的な魔法ではない
データが少なくて済むといっても、限度はあります。
データが極端に少なすぎたり、偏ったサンプリングをしていたりすれば、当然正しい結果は出ません。また、データ数が十分に多い(数百以上)場合は、従来のZ検定(正規分布を使った検定)と結果はほとんど変わらなくなります。
今後の学習の指針
いかがでしたか。
「スチューデントのT検定」という名前の裏には、美味しいビール造りに情熱を燃やした、一人の企業エンジニアの努力が隠されていました。
この話をした後、新人さんたちには次のステップを示してあげてください。
まずは、PythonやExcelを使って、実際にT検定を試してみることです。
「scipy」などのライブラリを使えば、複雑な計算はコンピュータが一瞬でやってくれます。
重要なのは計算方法を暗記することではなく、出てきた「P値(ピーち)」を見て、「これは偶然の差ではないな」と判断できるリテラシーです。
ゴセットがビールの品質を守ったように、みなさんもT検定を武器にして、システムの品質やサービスの価値を証明できるエンジニアになってください。
それでは、またお会いしましょう。
セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。