難解な数式が「スイッチ」に見える?新人エンジニアのためのベルヌーイ分布入門

こんにちは。ゆうせいです。

みなさんは、機械学習の参考書や統計学のWebサイトを開いたときに、突然現れる数式を見て、そっとブラウザを閉じた経験はありませんか。

特にエンジニアのみなさんが最初につまずきやすいのが、確率分布の数式です。

今日はその中でも、もっとも基礎的でありながら、数式の見た目が少しとっつきにくいベルヌーイ分布についてお話しします。

なぜあんなに複雑な指数の形をしているのか。

実はあれ、エンジニアのみなさんにはおなじみの「if文」のようなスイッチの役割を果たしているだけなのです。

この秘密を知れば、難解に見える数式が、急に親しみやすいツールに見えてきますよ。

そもそもベルヌーイ分布とは

まずは、この分布が何を扱っているのかをイメージしましょう。

名前は偉そうですが、やっていることはコイントスと同じです。

結果が2つしかない世界のことを指します。

コインを投げて表か裏か。

クイズに正解か不正解か。

Web広告がクリックされたか、されなかったか。

この白黒はっきりした結果を、数学の世界では「成功」と「失敗」、あるいは「 1 」と「 0 」で表します。

そして、成功する確率(表が出る確率など)を p という文字で置きます。

例えば、歪みのないコインなら表が出る確率は 50\% なので、 p = 0.5 ですね。

もし、表が出る確率が p なら、裏が出る(失敗する)確率は、全体 1 から引いて 1 - p になります。

ここまでは大丈夫でしょうか。直感的にもわかりますよね。

謎めいた公式の正体

さて、問題の公式です。

ベルヌーイ分布の確率 P(X=k) を求める式は、教科書にはこう書かれています。

P(X=k) = p^k (1-p)^{1-k}

これを見て、「うわっ」と思いませんでしたか。

なぜわざわざ k 乗したり、 1-k 乗したりするのでしょうか。

普通に「成功なら p 、失敗なら 1 - p 」と日本語で書けばいいじゃないか、と思いますよね。

しかし、数学者はこの「場合分け」を嫌います。

「成功のときはこの式、失敗のときはあの式」と2行に分けて書くのが面倒なのです。

なんとかして、たった1行の数式で両方のパターンを表現したい。

そこで発明されたのが、この指数を使ったトリックです。

指数が「スイッチ」の役割をする

この数式の謎を解く鍵は、中学校で習った指数のルールにあります。

以下の2つのルールを思い出してください。

  1. どんな数も、1乗するとその数のままになる( x^1 = x
  2. どんな数も、0乗すると1になる( x^0 = 1

このルールを使って、先ほどの数式に値を代入してみましょう。

結果 k には、成功を表す 1 か、失敗を表す 0 のどちらかが入ります。

ケース1:成功した(kが1)とき

数式の k の部分に 1 を入れてみます。

p^1 (1-p)^{1-1}

計算を進めるとこうなります。

p^1 (1-p)^0

ここで、さきほどのルールを使います。

p の1乗は p です。

(1-p) の0乗は 1 です。

つまり、

p \times 1 = p

なんと、ちゃんと「成功する確率 p 」だけが残りました。後ろの (1-p) の部分は、0乗されたことで 1 になり、消えてしまった(無効化された)のです。

ケース2:失敗した(kが0)とき

今度は k0 を入れてみましょう。

p^0 (1-p)^{1-0}

計算を進めます。

1 \times (1-p)^1

今度は p の方が0乗されて 1 になり、消えました。

代わりに後ろの (1-p) が生き残ります。

つまり、

1-p

ちゃんと「失敗する確率」が出てきましたね。

エンジニア視点で見ると「フラグ処理」

いかがでしょうか。

この数式は、 k1 なのか 0 なのかによって、 p を有効にするか、 1-p を有効にするかを自動で切り替えているのです。

エンジニアのみなさんなら、プログラムでフラグ管理をしたことがありますよね。

k という変数がフラグになっていて、

フラグが立っていれば( 1 )、前半の項がアクティブになる。

フラグが降りていれば( 0 )、後半の項がアクティブになる。

あの数式は、数学的な「if文」であり、絶妙なスイッチ機能付きの計算式だったのです。

メリットとデメリット

この書き方には、明確な理由と、少しの難点があります。

メリット

計算機で扱いやすい

機械学習、特に「ロジスティック回帰」などのアルゴリズムをプログラムで実装するとき、場合分けのif文を書くよりも、1つの数式で表されていた方が、微分などの計算が一気にできて非常に都合が良いのです。

数式が1行で済む

論文や教科書を書くとき、スペースを節約でき、見た目もシンプル(数学者にとっては美しく)になります。

デメリット

直感的にわかりにくい

今日解説したような「0乗の性質」を瞬時にイメージできないと、ただの複雑な記号の羅列に見えてしまいます。初心者の学習ハードルを上げてしまう要因の一つです。

計算ミスを誘発する

手計算でやろうとすると、指数の計算を間違えるリスクがあります。

今後の学習の指針

ベルヌーイ分布の数式の正体、それは「0乗すると1になる」という性質を巧みに利用した、数学的なスイッチでした。

これを知っているだけで、機械学習の参考書に出てくる \Sigma (シグマ)や \Pi (パイ)がついた複雑な式も、「あ、これはただのスイッチだな」と冷静に見られるようになります。

これからの学習の指針として、次は「二項分布(にこうぶんぷ)」の式を見てみてください。

ベルヌーイ分布は1回の試行でしたが、二項分布はそれを n 回繰り返すものです。

今日の知識があれば、二項分布の式の中に隠れている「ベルヌーイ分布のスイッチ」がきっと見つかるはずですよ。

数学は、丸暗記するよりも、こうして「なぜ?」を紐解く方が圧倒的に面白くなります。

また一緒に、数式の裏側にある物語を読み解いていきましょう。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。