共分散とは?初心者にもわかるように相関との違いを解説!

こんにちは。ゆうせいです。

「数学が得意な人は、物理も得意なことが多い」なんて話、聞いたことありませんか?

このように、二つの事柄がどれくらい関係しているのか気になったことはないでしょうか。

実は、統計学の世界には、そうした「二つのデータの関係性」を数字で表すための便利な道具があるんです。

その名も「共分散(きょうぶんさん)」!

今回は、この共分散とは一体何者なのか、一緒に探っていきましょう。

統計学の重要な一歩なので、ぜひマスターしてください!

共分散って、一言でいうと何?

共分散とは、ずばり「二つのデータが、一緒に動く度合いを示す指標」のことです。

ちょっと難しい言葉に聞こえるかもしれませんが、大丈夫。一つずつ分解してみましょう。

「共」は「共に」という意味ですね。

そして「分散」とは、データの「ばらつき具合」を示す指標でした。(もし分散が分からない場合は、まずそちらから調べてみると、より理解が深まりますよ!)

つまり共分散は、二つのデータセット(例えば、クラス全員の数学の点数と物理の点数)が、「共に(同じ方向に)ばらついているのか、それとも逆の方向にばらついているのか」を示してくれる、というわけなんです。

共分散の値を見ると、大きく分けて3つのことがわかります。

  1. 共分散がプラス(正の値)のとき片方のデータが増加すると、もう片方のデータも増加する傾向があることを示します。まるで仲良しの友達みたいに、一緒に上がっていくイメージですね。
    • 例:勉強時間が増えれば、テストの点数も上がる傾向
    • 例:身長が高くなれば、体重も重くなる傾向
  2. 共分散がマイナス(負の値)のとき片方のデータが増加すると、もう片方のデータは減少する傾向があることを示します。あまのじゃくな関係、といったところでしょうか。片方が上がると、もう片方は下がってしまうんです。
    • 例:ゲームの時間が増えれば、テストの点数は下がる傾向
    • 例:気温が上がれば、暖房器具の売上は下がる傾向
  3. 共分散が0に近いとき二つのデータの間には、特に明確な関係性が見られないことを示します。お互いに全く興味がない、無関係な状態ですね。
    • 例:靴のサイズと、テストの点数

どうでしょう?共分散がプラスかマイナスかを見るだけで、二つのデータの関係性の「方向」が見えてきませんか?

どうやって計算するの?考え方をマスターしよう!

「関係性の方向がわかるのはわかったけど、どうやって計算するの?」と思いますよね。

数式を見る前に、まずはその「考え方」を理解することが、何よりも大切です!

ここでは、A君、Bさん、C君、Dさん、Eさんの5人の「数学の点数」と「物理の点数」を例に考えてみましょう。

生徒数学 (x)物理 (y)
A君8075
Bさん5060
C君9095
Dさん4030
Eさん7065

共分散を求める旅は、4つのステップで進んでいきます。

ステップ1:それぞれの平均点を出す!

まずは、それぞれの教科の「平均点」を計算します。これが基準点になります。

  • 数学の平均点(xˉ): (80 + 50 + 90 + 40 + 70) ÷ 5 = 66点
  • 物理の平均点(yˉ​): (75 + 60 + 95 + 30 + 65) ÷ 5 = 65点

ステップ2:平均点からのズレ(偏差)を求める!

次に、一人ひとりの点数が、平均点からどれだけズレているか(上か下か)を計算します。このズレのことを専門用語で「偏差(へんさ)」と呼びます。

計算式:偏差 = 個人のデータ - 平均値

例えばA君の場合、

  • 数学の偏差: 80点 - 66点 = +14点
  • 物理の偏差: 75点 - 65点 = +10点

となります。A君は、数学も物理も平均より高い、ということがわかりますね。

ステップ3:二つの偏差を掛け合わせる!

ここが共分散の最も重要なポイントです!

生徒一人ひとりについて、ステップ2で計算した「数学の偏差」と「物理の偏差」を掛け合わせます。

なぜ掛け算するのか、わかりますか?

考えてみてください!

  • もし、数学も物理も平均点より高かったら…(数学の偏差:プラス)×(物理の偏差:プラス)= 掛け算の結果は「プラス」
  • もし、数学も物理も平均点より低かったら…(数学の偏差:マイナス)×(物理の偏差:マイナス)= 掛け算の結果は「プラス」

そうなんです!

点数が「同じ方向にズレている(両方高い、または両方低い)」場合、偏差の積は必ずプラスになります。

逆に、

  • もし、数学は高いけど物理は低かったら…(数学の偏差:プラス)×(物理の偏差:マイナス)= 掛け算の結果は「マイナス」

となり、「逆の方向にズレている」場合は、偏差の積がマイナスになる仕組みです。

この掛け算によって、二つのデータの「関係性の方向」を数字のプラス・マイナスに変換しているわけですね。

ステップ4:掛け合わせたものの平均を出す!

最後に、全員分の「偏差の積」を合計して、人数で割ります。つまり、偏差の積の平均値を求めるのです。

この最終結果こそが、「共分散」です。

もし、クラス全体で「偏差の積」のプラスが多ければ、最終的な共分散もプラスになります。

それはつまり、「数学の点数が高い人は物理の点数も高い」という傾向がクラス全体にある、ということですね。

共分散の数式を見てみよう

さて、考え方がわかったところで、数式を見てみましょう。急に難しくなったように感じるかもしれませんが、先ほどの4ステップを記号で書いただけなので、安心してください。

latexSxy​=n1​∑i=1n​(xi​−xˉ)(yi​−yˉ​)

共分散 = データ数1​× Σ{(個々のXのデータ - Xの平均値) × (個々のYのデータ - Yの平均値)}

記号意味
Sxy​XとYの共分散 (Covariance)
nデータの個数(今回の例では生徒の人数)
「シグマ」と読み、全部足し合わせるという意味の記号
xi​一人ひとりの数学の点数
数学の平均点
yi​一人ひとりの物理の点数
yˉ​物理の平均点
(xi​−xˉ)数学の偏差
(yi​−yˉ​)物理の偏差

数式の中の (xi​−xˉ)(yi​−yˉ​) がステップ3の「偏差の積」で、それを ∑ で全員分足し合わせて、n で割る(つまり平均を出す)のがステップ4ですね。

まさに、さっき解説した通りのことをやっているだけなんです!

実際に計算してみよう!

では、先ほどの5人の生徒のデータで、実際に共分散を計算してみましょう。

下の表を埋めるように計算を進めていきます。

生徒数学(x)物理(y)数学の偏差 (xi​−xˉ)物理の偏差 (yi​−yˉ​)偏差の積
A君807580-66 = 1475-65 = 1014 × 10 = 140
Bさん506050-66 = -1660-65 = -5(-16) × (-5) = 80
C君909590-66 = 2495-65 = 3024 × 30 = 720
Dさん403040-66 = -2630-65 = -35(-26) × (-35) = 910
Eさん706570-66 = 465-65 = 04 × 0 = 0
合計1850

偏差の積の合計が「1850」になりました。

これをデータの個数(人数)である「5」で割ります。

共分散 = 1850 ÷ 5 = 370

計算の結果、共分散は「370」となりました。

この値はプラスなので、「この5人の生徒においては、数学の点数が高い人ほど、物理の点数も高い傾向にある」ということが言えるわけです。

共分散の注意点(デメリット)

さて、二つのデータの関係性の方向がわかって便利な共分散ですが、一つだけ大きな弱点があります。

それは、「値の大きさが、関係性の強さを直接表しているわけではない」ということです。

どういうことかというと、共分散の値は、使っているデータの「単位」に大きく影響されてしまうのです。

例えば、身長と体重の関係を調べる場合を考えてみましょう。

  • 身長を「cm」、体重を「kg」で計算したときの共分散
  • 身長を「m」、体重を「g」で計算したときの共分散

この二つを比べると、後者の方が圧倒的に大きな値になってしまいます。

でも、関係性の「強さ」自体は変わっていないはずですよね?

このように、共分散は「100」だから関係が弱い、「5000」だから関係が強い、というように、値の大きさだけを見て単純に比較することができないのです。

あくまで「プラスか、マイナスか」という方向性を見るための指標だと覚えておいてください!

まとめと、次へのステップ

今回は、共分散について学んできましたが、いかがでしたか?

共分散とは

  • 二つのデータが一緒に動く度合いを示す指標
  • プラスなら「同じ方向」、マイナスなら「逆方向」の関係性がある
  • 計算は「偏差の積の平均」を求める

この3点をまずはしっかり押さえてください。

そして、先ほどお話しした共分散の弱点、「単位に影響されてしまい、関係の強さがわからない」という問題を解決してくれる、さらに強力な指標があります。

それが「相関係数(そうかんけいすう)」です。

相関係数は、共分散をそれぞれのデータの標準偏差で割ることで、単位の影響をなくし、必ず-1から1の間の値になるように正規化したものです。

これにより、関係性の「方向」だけでなく「強さ」も比較できるようになります。

共分散は、この相関係数を理解するための非常に重要なステップです。

まずはこの記事の内容をしっかり復習して、「共分散って何?」と聞かれたら、自分の言葉で説明できるようになってみましょう!それができたら、次はぜひ「相関係数」の世界へ進んでみてくださいね。統計学がもっと面白くなりますよ!

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。