ピアソンの相関係数を求める公式は、標準化(Standardization)の考え方が核心にある
こんにちは。ゆうせいです。
「標準化」と「正規化」、似ているようで違うこの二つの言葉と、相関係数の関係。この疑問を持つということは、データの本質を深く理解しようとしている証拠です。
今回はそのモヤモヤを解消すべく、ピアソンの相関係数の公式を分解しながら、なぜこれが「標準化の例」と言えるのかを、ハッキリと解説していきますね!
結論:相関係数は「標準化された値の平均」
ピアソンの相関係数の公式は、一見すると複雑に見えます。
しかし、この式の本質は「2つの変数をそれぞれ標準化し、その積を平均したもの」なのです。
これを理解するために、まず「標準化」とは何かを復習しましょう。
標準化とは「共通のモノサシ」に揃えること
標準化とは、データの平均が0、標準偏差が1になるように変換する操作です。これによって、単位が全く違うデータ同士を比較できるようになります。
例えば、「身長(cm)」と「体重(kg)」のデータをそのまま比べようとしても、単位が違うので難しいですよね。
そこで登場するのが標準化です。各データを「平均からどれくらい標準偏差分離れているか」という共通のモノサシ(これをz-scoreと呼びます)に変換してあげます。
標準化の公式はこうでした。
相関係数の公式を分解して見えてくる「標準化」
さて、先ほどのピアソンの相関係数の公式を、少し違う形で書いてみましょう。実は、この公式は以下のように書き換えることができるのです。
どうでしょうか? 式の中に、先ほど見た標準化の形がそっくりそのまま現れましたね!
- (
) : これは変数Xのi番目のデータを標準化した値(z-score)です。
- (
) : こちらは変数Yのi番目のデータを標準化した値です。
つまり、ピアソンの相関係数とは、「各データポイントごとにXとYをそれぞれ標準化し、その二つを掛け合わせ、最後にそれらを全て足して平均を取ったもの」だったのです。 この計算により、単位という呪縛から解き放たれ、2つの変数の純粋な関係性だけを-1から1の間の数値として取り出すことができるわけです。
では「正規化」の例ではないのか?
ここが少しややこしい点ですが、非常に良い質問です。
- プロセス(過程)は「標準化」:上で見たように、相関係数を計算する過程では、標準化の操作が行われています。
- 結果(Result)は「正規化されている」:計算の結果、相関係数は必ず-1から+1の範囲に収まります。このように「値を特定の範囲(例えば0〜1や-1〜1)にスケーリングする」ことを広義の正規化(Normalization)と呼びます。
つまり、 「標準化というプロセスを用いることで、結果的に-1から1の範囲に正規化された指標を得ている」 というのが最も正確な表現になります。
一般的にデータサイエンスの世界で「正規化」という言葉を使う場合、「最小値-最大値スケーリング(Min-Max Scaling)」を指すことが多いです。
この計算は相関係数の公式には含まれていないため、「相関係数はMin-Max正規化の例か?」と聞かれれば、答えは「No」となります。
まとめ:標準化と正規化の関係
特徴 | 標準化 (Standardization) | 正規化 (Min-Max Scaling) | ピアソンの相関係数 |
目的 | 平均を0、標準偏差を1にする (単位を揃える) | データを特定の範囲(例: 0〜1)に収める | 2つの変数の線形関係を測る |
関係性 | - | - | 計算プロセスに「標準化」を利用 |
結果の範囲 | 特に定まっていない | 0〜1の範囲 | 結果が-1〜1の範囲に「正規化」される |
いかがでしたでしょうか。 ピアソンの相関係数は、単位の異なるモノ同士の関係性を知るために「標準化」という強力な武器を内蔵した、非常に洗練された指標なのです。この仕組みを理解していると、分析結果の解釈も一段と深まりますよ!
セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。