【共分散と相関係数の違い:割り算が生み出す「比較可能性」】

こんにちは。ゆうせいです。

前回は、「割り算って、ただ“÷”するだけじゃない!」という話をしましたね。
今回はその学びをさらに深めるために、共分散相関係数という2つの概念を取り上げます。

データ分析をしていると、この2つがよく登場します。でも、

「名前は似てるけど、どう違うの?」
「なんでわざわざ割り算して相関係数を作るの?」

と疑問に思う方も多いはず。

安心してください!ゆっくり丁寧に、かつ例えを交えて解説していきます。


1. 共分散とは何か?

共分散とは、2つの変数がどのように一緒に動くかを示す指標です。

例えば、身長と体重のデータがあったとしましょう。
「身長が高い人ほど体重も重い」という傾向があれば、2つの変数は「同じ方向に動いている」といえます。

共分散の式はこちら:

\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})

(コブエックスワイは、エヌ分の1かける、各データの平均からの差を掛け合わせて足したもの)

  • xᵢ・yᵢ:それぞれのデータ
  • x̄・ȳ:平均
  • n:データの個数

この式の意味をざっくり言うと、

「xとyが、平均からどれだけ一緒にずれてるか?を測っている」

ということです。

たとえるなら、友達2人が同じタイミングで喜んだり落ち込んだりしてるかを見てる感じですね!


2. でも、共分散には「弱点」がある…

共分散は便利なんですが、1つ大きな欠点があります。

それは、スケール(単位)に依存してしまうということ。

たとえば、身長がcm単位なら共分散は小さめですが、もしm(メートル)で表すと値が大きくなります。

つまり、単位や測定のスケールによって数値が変わるんです。

これだと、他のデータセットと比較できませんよね?


3. 相関係数の登場:共分散を「割って」標準化!

そこで登場するのが相関係数(correlation coefficient)です。

相関係数は、共分散を各変数の標準偏差で割ることで、スケールの問題を解決しています。

式はこちら:

r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
(アールイコール、コブエックスワイ、わることの、シグマエックスかけるシグマワイ)

この割り算によって、相関係数は−1から+1の範囲に収まります。

相関係数 r の値意味
+1完全な正の相関(同じ動き)
0相関なし(バラバラに動く)
−1完全な負の相関(逆に動く)

このように、「どれくらい似て動いているか?」がスケールに左右されずに分かるわけです!


割り算の役割はここでも「比較のための変換」

共分散に対して、標準偏差で割ることで、

  • 単位を取り除く(無次元化)
  • 他の変数と比較できるようにする

という、まさに割り算の魔法が発動しています!


例えで理解しよう!

たとえば、2人の生徒がいます。

  • Aさんはテストで数学90点、英語85点
  • Bさんは数学70点、英語65点

2人とも数学と英語で似たような点差(5点)ですね。

この「似たような動き」が共分散です。
でも、クラス全体の平均点やばらつき(標準偏差)が違うと、比較は難しい…。

そこで「その動きが、クラスのばらつきに対してどのくらい大きいか?」を見るのが相関係数なのです!


まとめ

指標共分散相関係数
単位ある(cm・kgなど)なし(−1〜+1の無次元)
意味同時にどのように動いているか同時の動きの強さを比較可能にしたもの
計算方法平均からのズレの掛け算を平均共分散を標準偏差で割る
スケール影響受ける受けない

次回は、「単位を持つデータと持たないデータの扱い方」についてお話しします!

このテーマは、統計だけでなく、物理や経済でも非常に重要です。
「単位があるってどういう意味?」という視点から、さらに深く掘り下げていきましょう!

お楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。