データ分析入門:共分散から相関係数、正規化・標準化までを徹底解説!

こんにちは。ゆうせいです。

「数学が得意な人は、物理も得意なことが多い」

「夏になると、アイスの売上と水難事故の件数が増える」

私たちの周りには、このように一見すると関係がありそうな事柄がたくさんありますよね。統計学は、そうしたデータ同士の「関係性」を数字で解き明かし、さらには未来を予測するための強力な武器になります。

この記事では、データ分析の第一歩として絶対に知っておきたい3つの重要なテーマ、「共分散」「相関係数」「正規化・標準化」について、一つの流れで解説していきます。

この記事を読み終える頃には、あなたは次のことができるようになっています。

  • 2つのデータが同じ方向に動くか、逆方向に動くかがわかる(共分散
  • その関係性の「強さ」を客観的な指標で測れる(相関係数
  • 単位や尺度が違うデータを、分析のために公平に扱えるよう準備できる(正規化・標準化

統計学の重要な一歩を、一緒に踏み出しましょう!


STEP1:関係性の「方向」を知る「共分散」

まずは、二つのデータがどのような関係にあるのか、その「方向性」を探るための指標、「共分散(きょうぶんさん)」から見ていきましょう。

共分散って、一言でいうと何?

共分散とは、ずばり「二つのデータが、一緒に動く度合いを示す指標」のことです。

「共」は「共に」、「分散」はデータの「ばらつき具合」。つまり共分散は、二つのデータが「共に(同じ方向に)ばらついているか、逆の方向にばらついているか」を示してくれます

共分散の値を見ると、大きく分けて3つのことがわかります。

  1. 共分散がプラス(正の値)のとき片方のデータが増加すると、もう片方も増加する傾向があることを示します。まるで仲良しの友達みたいに、一緒に上がっていくイメージです。
    • 例:勉強時間が増えれば、テストの点数も上がる傾向
  2. 共分散がマイナス(負の値)のとき片方のデータが増加すると、もう片方は減少する傾向があることを示します。あまのじゃくな関係ですね。
    • 例:ゲームの時間が増えれば、テストの点数は下がる傾向
  3. 共分散が0に近いとき二つのデータに明確な関係性が見られないことを示します。
    • 例:靴のサイズと、テストの点数

どうでしょう?共分散がプラスかマイナスかを見るだけで、二つのデータの関係性の「方向」が見えてきませんか?

どうやって計算するの?

数式を見る前に、その「考え方」を理解することが大切です!

共分散は、以下の4ステップで計算できます。

  1. それぞれのデータの平均値を出す
  2. 各データが平均値からどれだけズレているか(偏差)を求める
  3. データごとに、2つの偏差を掛け合わせる
  4. ステップ3で計算した「偏差の積」の平均値を出す

ここで最も重要なのがステップ3の「偏差の掛け算」です。

  • (プラスの偏差)×(プラスの偏差) = プラス
  • (マイナスの偏差)×(マイナスの偏差) = プラス
  • (プラスの偏差)×(マイナスの偏差) = マイナス

このように、データが同じ方向にズレていると積はプラスに、逆方向にズレているとマイナスになります。この積の平均を取ることで、データ全体の傾向がプラスなのかマイナスなのかを判断しているわけです。

共分散の数式と計算例

考え方がわかったところで、数式を見てみましょう。先ほどの4ステップを記号で書いただけですよ。

latex S_xy=frac1nsum_i=1n(x_i−barx)(y_i−bary)

共分散 = frac1データ数times Σ{(個々のXのデータ - Xの平均値) × (個々のYのデータ - Yの平均値)}

例えば、5人の生徒の数学(x)と物理(y)の点数から共分散を計算すると、「370」というプラスの値が得られました。(詳細な計算は省略します)

この結果から、「この5人の生徒においては、数学の点数が高い人ほど、物理の点数も高い傾向にある」という関係性の方向がわかりました。

共分散の弱点

便利な共分散ですが、大きな弱点があります。それは、「値の大きさ自体には意味がない」ということです。

共分散の値は、データの単位(例: cmかmか)によって大きく変わってしまいます。そのため、共分散が「370」だからといって、その関係が「どれくらい強い」のかを判断することはできません。

あくまで「プラスか、マイナスか」という方向性を見るための指標だと覚えておいてください!


STEP2:関係性の「強さ」を測る「相関係数」

共分散の弱点、「関係の強さがわからない」を完璧に克服してくれるスーパーヒーローが「相関係数(そうかんけいすう)」です。

相関係数って、何がすごいの?

相関係数とは、ずばり「二つのデータの関係性の『方向』と『強さ』を、-1から1の範囲の数値で示してくれる最強の指標」のことです。

どんなデータで計算しても、必ず-1から1の間に収まるという素晴らしい特徴を持っています。これにより、単位が全く違うデータ同士の関係性も、同じ土俵で比較できるようになるのです。

相関係数(r)の値関係性
r=1完全な正の相関
r が1に近い強い正の相関
r が0に近いほとんど相関なし
r が-1に近い強い負の相関
r=−1完全な負の相関

値が1や-1に近づくほど関係性が強く、0に近づくほど弱いと言えます。

どうやって「関係の強さ」を測っているの?

その秘密は、計算方法に隠されています。

相関係数は、先ほど求めた「共分散」を、「それぞれのデータの標準偏差で割る」ことで求められます。

標準偏差とは、データのばらつき具合を示す指標で、「データが平均値から、だいたいどれくらい離れているか」を表す数値です。

共分散という「二つのデータが一緒に動く度合い」を、それぞれのデータが持つ元々の「ばらつき度合い(標準偏差)」で割ってあげる。

これにより、単位の影響をキャンセルし、純粋な「関係性の強さの割合」を-1から1の数値で表すことができるのです。

相関係数が開発される際のエピソード

相関係数は、19世紀後半のイギリスで、ある一つの疑問をきっかけに誕生しました。その中心人物は、「近代統計学の父」とも呼ばれるフランシス・ゴルトンと、その弟子であるカール・ピアソンです。

始まりは「親の才能は子に遺伝するのか?」という疑問 🧬

相関係数誕生の物語は、チャールズ・ダーウィンのいとこであるフランシス・ゴルトン(1822-1911)の研究室から始まります。彼は、ダーウィンの進化論に影響を受け、「人間の知能や才能も、身体的特徴と同じように親から子へ遺伝するのではないか」と考えました。

これを証明するため、ゴルトンは著名な父親とその息子の身長や知能など、様々なデータを集めて分析を始めました。

予期せぬ発見:「平均への回帰」

データを分析する中で、ゴルトンは奇妙な現象に気づきます。それは、「非常に背の高い父親の息子は、父親よりは身長が低くなる傾向があり、逆に非常に背の低い父親の息子は、父親よりは身長が高くなる傾向がある」というものでした。つまり、両極端な特徴は、世代を重ねるごとに集団の「平均」に近づいていくように見えたのです。

彼はこの現象を「平均への回帰(Regression toward the mean)」と名付けました。これは、彼の当初の仮説(優れた才能はそのまま子に受け継がれる)とは少し違う、予期せぬ発見でした。

しかし、この「回帰」という現象を詳しく調べるうちに、彼は2つの変数の間に「共に変化する関係」、つまり「共なる関係(co-relation)」があることを見出します。これが「相関(correlation)」という言葉の起源です。ゴルトンは、この関係の強さをなんとか数値で表せないかと考え始めました。

数学の天才による仕上げ:ピアソンの積率相関係数 📊

ゴルトンは多くのアイデアを生み出す天才でしたが、それを厳密な数式に落とし込む数学的な才能は少し不足していました。そこで登場するのが、彼の後継者であるカール・ピアソン(1857-1936)です。

ピアソンは、ゴルトンの「相関」のアイデアを引き継ぎ、それを洗練された数学理論へと昇華させました。彼は共分散を標準偏差の積で割るという手法を考案し、今日私たちが使っている「ピアソンの積率相関係数」の計算式を完成させたのです。

この数式によって、どんなデータでも-1から+1の範囲で関係の強さを客観的に比較できるようになり、統計学は飛躍的な進歩を遂げました。

このように、相関係数は「才能の遺伝」という素朴な疑問から始まり、ゴルトンの直感的な発見と、ピアソンの数学的な才能という二人の巨人の共同作業によって生み出された、歴史的な発明だったのです。

相関係数の数式と計算例

数式は以下のようになります。

latexr=fracS_xyS_xS_y

相関係数 = frac共分散(Xの標準偏差)times(Yの標準偏差)

先ほどの数学と物理のデータで計算してみましょう。

  • 共分散:370
  • 数学の標準偏差:約18.55
  • 物理の標準偏差:約21.21

相関係数 r=frac37018.55times21.21approx0.94

計算の結果、相関係数は約「0.94」となりました!この値は1に非常に近く、「数学と物理の点数には、極めて強い正の相関がある」と関係の強さまで結論づけることができます。

最も重要な注意点:相関は因果ではない!

ここで、絶対に忘れてはいけないルールがあります。それは、「相関関係は、因果関係を意味しない」ということです。これを絶対に忘れるな!

例えば、「アイスクリームの売上」と「水難事故の発生件数」には強い正の相関が見られます。しかし、「アイスが売れるから水難事故が起きる」わけではありませんよね。

本当の原因は「気温」です。気温が上がるから、アイスが売れ、海に行く人が増えて事故も増えるのです。

相関係数はあくまで「連動して動いている」ことを示すだけで、その理由までは教えてくれません。注意してくださいね。


STEP3:データを公平に扱う「正規化と標準化」

さて、データ間の関係性を測れるようになりました。しかし、分析を進める前にもう一つ重要な「下準備」があります。それが特徴量のスケーリングです。

例えば、「テストの点数(0〜100点)」と「アンケート評価(1〜5点)」のように、データの尺度(スケール)が全く違う場合、数値の大きい「テストの点数」の影響が不当に大きくなってしまいます。

そこで、各データを公平に扱うために尺度を揃える作業が必要になります。その代表的な手法が「正規化」と「標準化」です。

正規化:全員を「0から1の部屋」に押し込める!

正規化とは、「データの値を、0から1の範囲にギュッと収まるように変換する」手法です。別名「最小最大スケーリング(Min-Max Scaling)」とも呼ばれます。

データの中の最小値を0、最大値を1として、他のデータはその間に収まるように変換します。

latexX_norm=fracX−X_minX_max−X_min

  • メリット:値が必ず0から1に収まるので解釈しやすいです。
  • デメリット:極端な値(外れ値)に非常に弱いです。外れ値が一つでもあると、他のデータが狭い範囲に押し込められてしまい、差がわからなくなってしまいます。

標準化:平均的な人を「基準の0」にする!

標準化とは、「データの平均値を0、標準偏差を1になるように変換する」手法です。変換後の値は「Zスコア」とも呼ばれます。

データの平均値を基準の「0」とし、そこから標準偏差いくつぶん離れているかで値を表します。

latexZ=fracX−musigma

  • メリット:外れ値の影響を受けにくい、より頑健な手法です。多くの機械学習アルゴリズムで好まれます。
  • デメリット:変換後の値が特定の範囲に収まるわけではありません。

結局、どっちを使えばいいの?

これが一番知りたいことですよね。初心者のための鉄則はこれです。

迷ったら、まずは「標準化」を試せ!

標準化は外れ値に対して強く、多くの場面でより安定した結果をもたらすため、データ分析の世界ではまず標準化を適用するのが一般的なセオリーとなっています。

正規化 (Min-Max)標準化 (Z-score)
目的データを特定の範囲(0~1)に収めるデータの分布を平均0, 標準偏差1に変換する
使いどき・外れ値がないとわかっている場合
・値の範囲に意味がある場合
迷ったら、まずこちら
・データに外れ値が含まれる可能性がある場合
・多くの機械学習モデル
弱点外れ値に非常に弱い変換後の値の範囲が定まらない

まとめと次へのステップ

今回は、データ分析の基本となる3つの重要なステップを巡る旅をしてきました。

  1. 共分散で、2つのデータの関係性の「方向」を知る。
  2. 相関係数で、その関係性の「強さ」を-1から1の客観的な物差しで測る。
  3. 正規化・標準化で、尺度の違うデータを分析のために公平な状態に整える。

この流れを理解できたあなたは、もうデータ分析の初心者を卒業したと言っても過言ではありません!

さて、データ同士の関係性を理解し、データを綺麗に整える方法も学びました。次はいよいよ、そのデータを使って「予測」をするステップに進んでみたくなりますよね。

次のステップとしては、「回帰分析(かいきぶんせき)」を学んでみるのがおすすめです。数学の点数から物理の点数を予測する、といったことができるようになりますよ!

まずはこの記事の内容をしっかり復習して、データの世界をもっと楽しんでくださいね!

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。