データが正規分布しているかどうかを確認する方法

データが正規分布しているかどうかを確認する方法はいくつかあります。代表的な方法をいくつか紹介します。

1. ヒストグラムを作成して視覚的に確認する

  • データのヒストグラムを作成し、形状が左右対称で中央に山がある場合、正規分布の可能性があります。正規分布では、釣鐘型のグラフになるのが特徴です。
  • ただし、ヒストグラムだけでは正確な判断ができないことがあるので、他の方法も併用することが望ましいです。

2. Q-Qプロット(Quantile-Quantileプロット)を使う

  • Q-Qプロットは、データの分位数(quantiles)を正規分布の理論値と比較するプロットです。データが正規分布に従っている場合、点が直線に沿って並ぶことが期待されます。Q-Qプロットは、視覚的に正規分布を検証する強力なツールです。

3. 正規性検定を行う

  • 統計的にデータが正規分布かどうかを確認するには、正規性検定を行います。よく使われる検定方法には以下のものがあります。
    • Shapiro-Wilk検定: 小さいサンプルサイズに適しており、正規性を検定するのに広く使われます。
    • Kolmogorov-Smirnov検定: より大きなサンプルサイズでも使われますが、Shapiro-Wilk検定より厳しい場合があります。
    • Anderson-Darling検定: 正規分布を厳密に検定したい場合に使われます。

4. 歪度(Skewness)と尖度(Kurtosis)を確認する

  • 歪度(skewness)はデータの対称性を測る指標です。歪度が0に近い場合、データは左右対称であると判断されます。
  • 尖度(kurtosis)はデータの尖り具合を測る指標です。尖度が3に近い場合、正規分布に近いとされます。

5. ジャック=ベラ検定(Jarque-Bera Test)

  • 歪度と尖度を組み合わせて正規性を検定するジャック=ベラ検定もあります。この検定では、データが正規分布に従っていないと仮定して、どれだけ正規分布からずれているかを評価します。

これらの方法を組み合わせることで、データが正規分布に従っているかどうかをより確実に判断することができます。