統計学の基礎となる正規分布の数式:初心者向けの導出方法と解説

こんにちは。ゆうせいです。

本日は、統計学において中心的な役割を果たす正規分布について、正規分布の数式がどのように導き出されるのかを解説します。正規分布の数式は一見すると複雑に見えますが、前提となる条件を一つずつ解きほぐすことで、数式の成り立ちを論理的に理解することが可能です。

正規分布とは何か

正規分布は、データの散らばり具合を表す確率分布の一種です。

統計学では専門用語として「確率密度関数」という言葉を使用します。確率密度関数とは、ある値が出現する確率の高さを示す関数のことです。高校生に馴染みのある例を用いるなら、確率密度関数はテストの点数の分布グラフが描く「曲線」そのものです。横軸にテストの点数、縦軸に点数を取った人数の割合をとったとき、平均点付近に最も多くの人が集まり、平均点から離れるほど人数が減っていく滑らかな山の形を描きます。確率密度関数は、まさに点数の山の形を表す数式です。

導出の前提条件

正規分布の数式を導出するアプローチにはいくつか存在しますが、ここでは的当てゲームを例にしたハーシェル・マクスウェルの導出方法を用います。

的の中心を原点として、横方向をx軸、縦方向をy軸とします。ダーツの矢が的に当たる場所について、以下の3つの条件を設定します。

  • 矢が当たる確率は、原点からの距離のみに依存する。
  • x軸方向のばらつきと、y軸方向のばらつきは互いに独立している。
  • 的の中心に近いほど、矢が当たる確率は高くなる。

x軸方向の確率密度関数をp(x)、y軸方向の確率密度関数をp(y)と置きます。x軸とy軸は独立しているため、ある座標に矢が当たる確率を表す関数は、p(x)とp(y)の掛け算で表されます。

数式の導出プロセス

距離に基づく関数

原点からの距離の2乗はピタゴラスの定理により、xの2乗とyの2乗の和となります。原点からの距離のみに依存するという条件から、未知の関数gを用いて以下の等式が成り立ちます。

p(x)p(y) = g(x^2 + y^2)

両辺をxについて微分すると、以下のようになります。p'(x)はp(x)の微分を表し、g'(x^2 + y^2)は関数gの微分を表します。

p'(x)p(y) = 2x g'(x^2 + y^2)

同様に両辺をyについて微分します。

p(x)p'(y) = 2y g'(x^2 + y^2)

微分方程式の構築

導出した2つの式からg'(x^2 + y^2)を消去するために割り算を行うと、以下の構造を持つ式が得られます。分数の形をとるため、ここから専用の数式記法を使用します。

\frac{p'(x)}{x p(x)} = \frac{p'(y)}{y p(y)}

左辺はxのみの式、右辺はyのみの式です。xとyは互いに独立して変化できる値であるため、等式が常に成り立つためには両辺が定数である必要があります。定数をcと置きます。

\frac{p'(x)}{x p(x)} = c

微分方程式の解決

構築した微分方程式を解きます。両辺を積分することで、p(x)の形を求めます。Aを積分から生じる正の定数とします。

p(x) = A e^{\frac{1}{2} c x^2}

的の中心から離れるほど確率は下がるという3つ目の条件を満たすためには、定数cは負の値でなければなりません。そこで、新しい正の定数hを用いて c = -h と置きます。

p(x) = A e^{-\frac{1}{2} h x^2}

確率の合計を1にするための定数計算

確率密度関数は、すべての範囲にわたって足し合わせる(積分する)と合計が1になるという性質を持ちます。したがって、マイナス無限大からプラス無限大までの積分の値が1になるように定数Aを決定する必要があります。

\int_{-\infty}^{\infty} A e^{-\frac{1}{2} h x^2} dx = 1

ガウス積分と呼ばれる計算手法を用いると、定数Aは以下のように求まります。

A = \sqrt{\frac{h}{2 \pi}}

正規分布の完成

平均をあらわす記号をギリシャ文字のミュー、標準偏差(データの散らばり具合)をあらわす記号をシグマとします。定数hと分散(標準偏差の2乗)の関係を整理し、中心を原点から平均値ミューに平行移動させると、最終的な正規分布の確率密度関数f(x)が得られます。

f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}

正規分布のメリットとデメリット

正規分布を統計的モデルとして利用することには、事実に基づいた明確な特徴があります。

  • メリット:自然界や社会における多くの現象(身長、テストの点数、工業製品の寸法誤差など)が近似的に正規分布に従うため、データ分析や確率の予測において極めて汎用性が高いという事実があります。中心極限定理という数学的定理により、サンプルの数が増えれば平均値の分布は正規分布に近づくことが証明されています。
  • デメリット:正規分布の関数は左右対称であり、マイナス無限大からプラス無限大までの値を取ることを前提としています。したがって、身長や体重のようにゼロ未満にならないという明確な下限が存在するデータに対して適用する場合、厳密には現実のデータ構造と完全に一致しないという制約があります。

まとめ

正規分布の数式は、独立性や確率の合計が1になるという基本原則から、微分方程式と積分を経て論理的に導き出されます。正規分布の数式をより深く理解し、統計学の学習を進めるためのステップを以下に示します。

  1. 高校数学レベルの微分と積分の基本操作を習得する。
  2. 確率密度関数という概念と、関数の面積が確率を表すという原則を理解する。
  3. ガウス積分の展開手順を紙とペンで実際に追ってみる。
  4. 実際のデータを用いて、平均と標準偏差がグラフの形にどのように影響するかを確認する。

基礎的な数学のルールを順を追って確認することで、統計学全体の理解を確かなものにしてください。

セイ・コンサルティング・グループでは新人エンジニア研修のアシスタント講師を募集しています。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。

学生時代は趣味と実益を兼ねてリゾートバイトにいそしむ。長野県白馬村に始まり、志賀高原でのスキーインストラクター、沖縄石垣島、北海道トマム。高じてオーストラリアのゴールドコーストでツアーガイドなど。現在は野菜作りにはまっている。