【二項分布入門】コインを10回投げたら表は何回出る?確率の「山」を予測しよう

こんにちは。ゆうせいです。

前回は、コイン投げを1回だけ行う ベルヌーイ分布 についてお話ししましたね。結果が成功(1)か失敗(0)しかない、とてもシンプルな世界でした。

でも、現実の世界では、1回だけの勝負で終わることばかりではありませんよね。

  • コインを10回投げて、表が何回出るか知りたい。
  • ソシャゲのガチャを100回引いて、SSRが何枚出るか予測したい。
  • 工場で製品を1000個作って、不良品がいくつ出るか管理したい。

このように、同じことを何回も繰り返したとき、成功は何回くらい起きるのだろうか という疑問に答えてくれるのが、今回紹介する 二項分布(にこうぶんぷ) です。

名前は少し堅苦しいですが、中身は前回のベルヌーイ分布の応用編にすぎません。肩の力を抜いて、一緒に見ていきましょう。

二項分布とは?「繰り返し」の世界

二項分布とは、一言で言うと ベルヌーイ試行をn回繰り返したときの、成功回数の確率分布 です。

ちょっと難しい言葉が並びましたね。分解して考えましょう。

  1. ベルヌーイ試行:結果が成功か失敗の2つしかない実験(コイン投げなど)。成功確率を p とします。
  2. n回繰り返す:コインを10回投げるなら、 n = 10 です。
  3. 成功回数:10回のうち、表が3回出るかもしれないし、7回出るかもしれません。この回数を k とします。

つまり、成功確率 p のコインを n 回投げたとき、表がちょうど k 回出る確率はどれくらい? を計算するための道具が二項分布なのです。

確率を計算してみよう

では、具体的に計算してみましょう。少しだけ高校数学の記憶を呼び起こしてくださいね。

例として、表が出る確率が 0.5 (つまり p = 0.5 )のコインを、3回投げる( n = 3 )場合を考えてみましょう。

ここで、ちょうど表が2回出る( k = 2 )確率はいくらでしょうか。

1. パターンを書き出す

3回中2回表が出るパターンは、以下の3通りがあります。(表を○、裏を×とします)

  • ○、○、×
  • ○、×、○
  • ×、○、○

2. 1つのパターンの確率を計算する

まず、1番目の「○、○、×」となる確率を計算します。それぞれの確率は 0.5 なので、全部掛け合わせます。

0.5 \times 0.5 \times (1 - 0.5) = 0.5^2 \times 0.5^1 = 0.125

他の2つのパターンも、順番が違うだけで計算結果は同じ 0.125 になります。

3. 全部のパターンを足し合わせる

パターンは全部で3通りありました。なので、合計の確率はこうなります。

0.125 + 0.125 + 0.125 = 3 \times 0.125 = 0.375

つまり、37.5%の確率で、表がちょうど2回出るということです。

公式で見てみよう(反復試行の確率)

これを一般的な公式にすると、高校数学で習った 反復試行の確率 の式になります。

P(X=k) = {}_nC_k \times p^k \times (1-p)^{n-k}

うわっ、難しそう と思わないでください。これも分解すれば単純です。

  • p^k \times (1-p)^{n-k} これは先ほどの「○、○、×」のような、特定の1パターンの確率を計算しています。成功が k 回、失敗が残りの n-k 回起きる確率ですね。
  • {}_nC_k (コンビネーション)これは「組み合わせの数」です。先ほどの例で「3通りあった」という部分を計算しています。 n 回のうち、どの場所で k 回成功するかを選ぶ組み合わせの数ですね。

この公式を使えば、100回中30回成功する確率なども計算できるようになります。

期待値と分散:合計するだけでOK

次に、二項分布の期待値(平均)と分散を見てみましょう。

これは前回のベルヌーイ分布の知識があれば、驚くほど簡単です。

なぜなら、二項分布は ベルヌーイ分布をn回足し合わせたもの だからです。

期待値(平均成功回数)

ベルヌーイ分布(1回)の期待値は p でした。

それを n 回繰り返すのですから、単純に n 倍すればいいだけです。

E[X] = n \times p

たとえば、表が出る確率 p=0.5 のコインを n=10 回投げたら、表は何回くらい出ると期待できますか。

10 \times 0.5 = 5 回ですね。直感的にも納得できるはずです。

分散(ばらつき具合)

分散も同じです。それぞれの試行が独立している(お互いに影響しない)場合、分散も足し合わせることができます。

ベルヌーイ分布(1回)の分散は p(1-p)でした。

これを n 個足し合わせます。

V[X] = n \times p(1-p)

これが二項分布の分散です。回数 n が増えれば増えるほど、ばらつきの合計も大きくなっていくことがわかります。

二項分布のメリットとデメリット

メリット

  • シンプルで強力:成功か失敗かという単純な仕組みだけで、選挙の得票予測から製品の品質管理まで、幅広い現実の問題をモデル化できます。
  • 直感的:期待値が np になるなど、結果が直感と一致しやすく理解しやすいです。

デメリット(限界)

  • 計算が大変:試行回数 n が1000回、1万回と大きくなると、先ほどの {}_nC_k の計算がとてつもなく大変になります。コンピュータでも計算しきれなくなることがあります。

まとめと次のステップ

いかがでしたか。

二項分布は、前回のベルヌーイ分布を n 回繰り返しただけの、兄弟のような関係だということがお分かりいただけたでしょうか。

  • 二項分布:成功確率 p の勝負を n 回やったときの、成功回数の分布。
  • 期待値np
  • 分散np(1-p)

さて、デメリットのところで 回数nが大きすぎると計算が大変 という話をしました。

では、1万回コインを投げるときのような、回数がとても多い場合はどうすればいいのでしょうか。

実は、回数 n をどんどん大きくしていくと、二項分布のグラフは、統計学の王様とも言える ある有名な形 に近づいていくのです。

それが 正規分布(ガウス分布) です。

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。