【統計学の基本】分散と共分散の違いって?データの「ばらつき」を読み解く第一歩!

こんにちは。ゆうせいです。

「データ分析」と聞くと、なんだか難しそうな数式が並んでいて、ちょっと身構えてしまいますよね。特に、新人エンジニアの皆さんの中には、機械学習の研修などで「分散」や「共分散」という言葉に出会い、「これって何が違うの?」と混乱してしまった方もいるのではないでしょうか?

大丈夫です!この二つの概念は、データの「個性」を理解するための、とっても便利で基本的な道具なんです。

今回は、分散と共分散とはそれぞれ何なのか、そして両者はどう似ていて、どこが違うのかを、例え話を交えながら一緒に見ていきましょう。この記事を読み終える頃には、データの「ばらつき」について、自信を持って語れるようになっていますよ!

分散とは?ー 1つのデータの広がり具合を見るモノサシ

まず、一番シンプルな「分散」から見ていきましょう。

分散を一言でいうと、「データが、その平均値からどれくらい散らばっているか」を示す指標です。

例えば、テストの点で考えてみよう!

ここに、A組とB組、二つのクラスがあるとします。どちらのクラスも、数学のテストの平均点は60点でした。

  • A組の点数:[58点, 60点, 62点]
  • B組の点数:[30点, 60点, 90点]

平均点は同じ60点ですが、データの散らばり具合は全然違いますよね?

A組はみんなが平均点周辺にキュッと集まっています。一方、B組は平均点から大きく離れた点数の生徒がいます。

この「散らばりの度合い」を、一つの数値でズバッと表してくれるのが「分散」なんです。感覚的に、A組の分散は小さく、B組の分散は大きくなりそうだ、と想像できますか?

どうやって計算するの?

分散を計算する手順は、実はとってもシンプルです。

  1. まず、各データが平均値からどれだけ離れているか(これを「偏差」と言います)を計算します。
  2. 次に、その偏差をそれぞれ2乗します。(なぜ2乗するかというと、プラスのズレもマイナスのズレも、等しく「ズレ」として扱いたいからです。もし2乗しないと、合計が0になってしまうことがあるんですよ。)
  3. 最後に、2乗した値を全部足し合わせて、データの個数で割ります。これで「ズレの大きさの平均」が求まりますね!

これを数式で書くと、こうなります。

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

分散 = \frac{1}{データの個数} \times (個々のデータの値 - 平均値)^2 の全ての合計

分散の値が大きいほど「データが広範囲に散らばっている」、小さいほど「データが平均値の周りに密集している」と判断できるわけです。とっても便利だと思いませんか?

共分散とは?ー 2つのデータの関係性を見るモノサシ

さて、分散が「1つのデータセット」の散らばりを見るためのものだったのに対し、「共分散」は「2つのデータセット」の関係性を見るための指標です。

共分散は、「片方のデータが増加したとき、もう片方のデータは増加する傾向にあるのか、それとも減少する傾向にあるのか」を示してくれます。

例えば、勉強時間とテストの点で考えてみよう!

あるクラスで、「1週間の勉強時間」と「テストの点数」という2つのデータを集めたとしましょう。

一般的に、勉強時間が増えれば、テストの点数も上がる傾向にありそうですよね?

このように、片方が増えるともう片方も増える、という関係を「正の相関がある」と言います。この場合、共分散はプラスの値になります。

逆に、「気温」と「温かいコーヒーの売上」のように、片方が増えるともう片方が減る関係(負の相関)だと、共分散はマイナスの値になります。

そして、特に明確な関係が見られない場合は、共分散は0に近い値になるのです。

どうやって計算するの?

計算方法は、分散の考え方を少し応用するだけです。

分散では「平均からのズレ」を2乗しましたよね。

共分散では、2つのデータそれぞれで「平均からのズレ」を計算し、それらを掛け合わせます。その合計をデータの個数で割ればOKです!

数式で見てみましょう。

\sigma_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)

共分散 = \frac{1}{データの個数} \times ((Xの各データ - Xの平均値) \times (Yの各データ - Yの平均値)) の全ての合計

片方のズレがプラスのときにもう片方のズレもプラスなら(つまり、両方とも平均より大きい)、掛け算の結果はプラスになります。これが積み重なると、共分散は大きなプラスの値になる、という仕組みです。

まとめ:分散と共分散の共通点と相違点

ここまで見てきた内容を、表で整理してみましょう!

項目分散 (Variance)共分散 (Covariance)
目的1種類のデータがどれだけ散らばっているか2種類のデータがどう関係しているか
扱う変数の数1つ2つ
値の解釈常に0以上。大きいほど散らばりが大きい。プラス、マイナス、0の値を取る。符号で関係性の向きがわかる。

実は、面白いことに、分散は「自分自身との共分散」と考えることもできるんですよ。先ほどの共分散の式で、XとYに同じデータを入れてみてください。ほら、分散の式とそっくりになりますよね!

共通点は、どちらもデータの「平均からのズレ(偏差)」をベースに計算していること。

相違点は、見ているデータの種類が「1つ」なのか「2つ」なのか、という点です。これが最も本質的な違いです!

次のステップへ

分散と共分散について、なんとなく掴めてきたでしょうか?

もしあなたがデータ分析の世界にもっと足を踏み入れたいなら、次はこの二つの概念から一歩進んで、「標準偏差」と「相関係数」について学んでみることを強くオススメします!

  • 標準偏差: 分散の平方根をとったもの。単位が元のデータと同じになるので、より直感的に散らばり具合を理解できます。
  • 相関係数: 共分散を正規化して、-1から1の間に収めたもの。共分散の「値の大きさが単位に依存してしまう」という弱点を克服し、関係性の「強さ」を客観的に比較できるようになります。

まずは、今日学んだ分散と共分散の考え方をしっかり自分のものにしてください。それができれば、データ分析のより高度な世界への扉が、きっと開かれるはずです。

焦らず、一歩ずつデータと仲良くなっていきましょう!

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。