ピアソンの相関係数を求める公式は、標準化(Standardization)の考え方が核心にある

こんにちは。ゆうせいです。

「標準化」と「正規化」、似ているようで違うこの二つの言葉と、相関係数の関係。この疑問を持つということは、データの本質を深く理解しようとしている証拠です。

今回はそのモヤモヤを解消すべく、ピアソンの相関係数の公式を分解しながら、なぜこれが「標準化の例」と言えるのかを、ハッキリと解説していきますね!


結論:相関係数は「標準化された値の平均」

ピアソンの相関係数の公式は、一見すると複雑に見えます。

\rho_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}

しかし、この式の本質は「2つの変数をそれぞれ標準化し、その積を平均したもの」なのです。

これを理解するために、まず「標準化」とは何かを復習しましょう。

標準化とは「共通のモノサシ」に揃えること

標準化とは、データの平均が0、標準偏差が1になるように変換する操作です。これによって、単位が全く違うデータ同士を比較できるようになります。

例えば、「身長(cm)」と「体重(kg)」のデータをそのまま比べようとしても、単位が違うので難しいですよね。

そこで登場するのが標準化です。各データを「平均からどれくらい標準偏差分離れているか」という共通のモノサシ(これをz-scoreと呼びます)に変換してあげます。

標準化の公式はこうでした。

a normal distribution curve with z-scoresの画像

相関係数の公式を分解して見えてくる「標準化」

さて、先ほどのピアソンの相関係数の公式を、少し違う形で書いてみましょう。実は、この公式は以下のように書き換えることができるのです。

\rho_{xy} = \frac{1}{n} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{\sigma_x} \right) \left( \frac{y_i - \bar{y}}{\sigma_y} \right)

どうでしょうか? 式の中に、先ほど見た標準化の形がそっくりそのまま現れましたね!

  • (\frac{x_i - \bar{x}}{\sigma_x}) : これは変数Xのi番目のデータを標準化した値(z-score)です。
  • (​​\frac{y_i - \bar{y}}{\sigma_y}) : こちらは変数Yのi番目のデータを標準化した値です。

つまり、ピアソンの相関係数とは、「各データポイントごとにXとYをそれぞれ標準化し、その二つを掛け合わせ、最後にそれらを全て足して平均を取ったもの」だったのです。 この計算により、単位という呪縛から解き放たれ、2つの変数の純粋な関係性だけを-1から1の間の数値として取り出すことができるわけです。


では「正規化」の例ではないのか?

ここが少しややこしい点ですが、非常に良い質問です。

  • プロセス(過程)は「標準化」:上で見たように、相関係数を計算する過程では、標準化の操作が行われています。
  • 結果(Result)は「正規化されている」:計算の結果、相関係数は必ず-1から+1の範囲に収まります。このように「値を特定の範囲(例えば0〜1や-1〜1)にスケーリングする」ことを広義の正規化(Normalization)と呼びます。

つまり、 「標準化というプロセスを用いることで、結果的に-1から1の範囲に正規化された指標を得ている」 というのが最も正確な表現になります。

一般的にデータサイエンスの世界で「正規化」という言葉を使う場合、「最小値-最大値スケーリング(Min-Max Scaling)」を指すことが多いです。

\text{Normalized } x = \frac{x - \min(x)}{\max(x) - \min(x)}

この計算は相関係数の公式には含まれていないため、「相関係数はMin-Max正規化の例か?」と聞かれれば、答えは「No」となります。

まとめ:標準化と正規化の関係

特徴標準化 (Standardization)正規化 (Min-Max Scaling)ピアソンの相関係数
目的平均を0、標準偏差を1にする (単位を揃える)データを特定の範囲(例: 0〜1)に収める2つの変数の線形関係を測る
関係性--計算プロセスに「標準化」を利用
結果の範囲特に定まっていない0〜1の範囲結果が-1〜1の範囲に「正規化」される

いかがでしたでしょうか。 ピアソンの相関係数は、単位の異なるモノ同士の関係性を知るために「標準化」という強力な武器を内蔵した、非常に洗練された指標なのです。この仕組みを理解していると、分析結果の解釈も一段と深まりますよ!

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。