中心極限定理とは?

中心極限定理(ちゅうしんきょくげんていり)は、統計学において非常に重要な定理です。簡単に言うと、

「どんな分布のデータでも、たくさんのサンプルの平均を取ると、その平均の分布は正規分布(ベルカーブ)に近づく」

というものです。

具体的には、元のデータの分布が偏っていても、十分な数のサンプルの平均を計算すると、その平均の分布はだんだん正規分布に近づきます。また、サンプルサイズが大きくなるほど、この正規分布への近づき方が速くなります。

この定理のおかげで、現実のデータがどんな分布を持っていても、サンプルの平均を使った推定や検定が比較的簡単にできるようになります。たとえば、サンプル平均を使って母集団の平均を推定したり、仮説検定を行ったりする際に、正規分布の性質を利用できるようになります。

例えば、以下のような例で中心極限定理を考えてみましょう。

例: サイコロを使った実験

状況:
普通の6面サイコロを何度も振るとします。このサイコロはそれぞれの面が同じ確率で出るので、サイコロを1回振ったときの出目の分布は一様分布(1から6までの値が全て等しい確率で出る)です。

実験:

  1. サイコロを1回だけ振った場合、出目は1~6のどれか1つになります。平均を計算すると、出た目そのものが平均です。
  2. 次に、サイコロを10回振り、それぞれの出目の平均を計算します。この平均値を記録します。
  3. さらに、サイコロを100回振り、またその平均値を記録します。

観察:

  • サイコロを1回だけ振った場合、出目は1から6の間でランダムに分布しており、特に正規分布にはなりません。
  • 10回振ったときの平均値を何度も記録すると、平均値は3.5に近い値が多くなり、その分布は少しずつ正規分布に近づいていきます。
  • 100回振ったときの平均値を何度も記録すると、さらに平均値は3.5により近い値が多くなり、結果としてその分布は正規分布に非常に近くなります。

中心極限定理は多くの分布に対して成り立ちますが、いくつかの条件があります。そのため、どのような分布に対しても成り立つとは言えません。以下に中心極限定理が成り立つための条件と、例外を説明します。

中心極限定理が成り立つための条件

  1. 独立同分布: 各サンプルが互いに独立していること(前のサンプルが次のサンプルに影響を与えない)と、同じ分布に従うことが必要です。
  2. 有限の分散: 元の分布が有限の平均と有限の分散を持っている必要があります。つまり、極端に広がりが大きい分布や、平均や分散が無限大になる分布では中心極限定理が成り立たない場合があります。

中心極限定理が成り立つ例

  • 正規分布: すでに正規分布である場合、サンプル平均も正規分布になります。
  • 二項分布: コインの表裏のように、二つの結果しかない場合でも、試行回数が多くなるとサンプル平均は正規分布に近づきます。
  • ポアソン分布: ある時間内に起こるイベントの回数を表す分布ですが、サンプルサイズが大きくなるとサンプル平均は正規分布に近づきます。

中心極限定理が成り立ちにくい場合

  1. 重い尾を持つ分布:
    • 例: コーシー分布(Cauchy distribution)は平均も分散も無限大になる分布の一例で、これに対しては中心極限定理が成り立ちません。コーシー分布では、サンプル平均が元の分布に従い続け、正規分布に近づくことはありません。
  2. 依存したサンプル:
    • サンプルが互いに依存している場合、中心極限定理が適用されない場合があります。例えば、時系列データで強い自己相関がある場合は、中心極限定理が成り立たない可能性があります。

中心極限定理の結論

多くの実際のデータセットや実験において、中心極限定理は非常に強力であり、さまざまな分布で成り立ちます。しかし、サンプルが独立同分布でない場合や、元の分布が重い尾を持つなどの特殊な場合には成り立たないことがあるため、常に成り立つとは言えません。

t分布カイ二乗分布についても中心極限定理は基本的に成り立ちますが、それぞれの分布が持つ特性によって若干異なる取り扱いが必要です。

t分布について

t分布は、正規分布に基づいた小サンプルサイズに対する分布です。特に、母分散が未知であり、サンプルから推定する場合に使用されます。t分布はサンプルサイズが小さいときに正規分布よりも裾が厚い(分散が大きい)ですが、サンプルサイズが大きくなるとt分布は正規分布に近づきます。

  • 中心極限定理との関係: サンプルサイズが増加するにつれて、t分布は正規分布に収束します。したがって、十分なサンプルサイズがある場合、t分布は中心極限定理の適用が可能であり、t分布も正規分布に近づくため、t分布に基づくサンプル平均も中心極限定理の効果を受けます。

カイ二乗分布について

カイ二乗分布は、独立した標準正規分布に従う変数の二乗和の分布です。この分布は、自由度が増えると、平均と分散が変化しますが、自由度が高くなると正規分布に近づいていきます。カイ二乗分布は非対称な形状を持つ分布ですが、自由度が大きくなると、分布の形状が正規分布に近づきます。

  • 中心極限定理との関係: 自由度が十分に大きい場合、カイ二乗分布の形状は正規分布に非常に近くなります。これにより、カイ二乗分布に従う変数の和や平均も、中心極限定理に基づいて正規分布に近づきます。