データ分析入門:共分散から相関係数、正規化・標準化までを徹底解説!
こんにちは。ゆうせいです。
「数学が得意な人は、物理も得意なことが多い」
「夏になると、アイスの売上と水難事故の件数が増える」
私たちの周りには、このように一見すると関係がありそうな事柄がたくさんありますよね。統計学は、そうしたデータ同士の「関係性」を数字で解き明かし、さらには未来を予測するための強力な武器になります。
この記事では、データ分析の第一歩として絶対に知っておきたい3つの重要なテーマ、「共分散」「相関係数」「正規化・標準化」について、一つの流れで解説していきます。
この記事を読み終える頃には、あなたは次のことができるようになっています。
- 2つのデータが同じ方向に動くか、逆方向に動くかがわかる(共分散)
- その関係性の「強さ」を客観的な指標で測れる(相関係数)
- 単位や尺度が違うデータを、分析のために公平に扱えるよう準備できる(正規化・標準化)
統計学の重要な一歩を、一緒に踏み出しましょう!
STEP1:関係性の「方向」を知る「共分散」
まずは、二つのデータがどのような関係にあるのか、その「方向性」を探るための指標、「共分散(きょうぶんさん)」から見ていきましょう。
共分散って、一言でいうと何?
共分散とは、ずばり「二つのデータが、一緒に動く度合いを示す指標」のことです。
「共」は「共に」、「分散」はデータの「ばらつき具合」。つまり共分散は、二つのデータが「共に(同じ方向に)ばらついているか、逆の方向にばらついているか」を示してくれます。
共分散の値を見ると、大きく分けて3つのことがわかります。
- 共分散がプラス(正の値)のとき片方のデータが増加すると、もう片方も増加する傾向があることを示します。まるで仲良しの友達みたいに、一緒に上がっていくイメージです。
- 例:勉強時間が増えれば、テストの点数も上がる傾向
- 共分散がマイナス(負の値)のとき片方のデータが増加すると、もう片方は減少する傾向があることを示します。あまのじゃくな関係ですね。
- 例:ゲームの時間が増えれば、テストの点数は下がる傾向
- 共分散が0に近いとき二つのデータに明確な関係性が見られないことを示します。
- 例:靴のサイズと、テストの点数
どうでしょう?共分散がプラスかマイナスかを見るだけで、二つのデータの関係性の「方向」が見えてきませんか?
どうやって計算するの?
数式を見る前に、その「考え方」を理解することが大切です!
共分散は、以下の4ステップで計算できます。
- それぞれのデータの平均値を出す
- 各データが平均値からどれだけズレているか(偏差)を求める
- データごとに、2つの偏差を掛け合わせる
- ステップ3で計算した「偏差の積」の平均値を出す
ここで最も重要なのがステップ3の「偏差の掛け算」です。
- (プラスの偏差)×(プラスの偏差) = プラス
- (マイナスの偏差)×(マイナスの偏差) = プラス
- (プラスの偏差)×(マイナスの偏差) = マイナス
このように、データが同じ方向にズレていると積はプラスに、逆方向にズレているとマイナスになります。この積の平均を取ることで、データ全体の傾向がプラスなのかマイナスなのかを判断しているわけです。
共分散の数式と計算例
考え方がわかったところで、数式を見てみましょう。先ほどの4ステップを記号で書いただけですよ。
latex S_xy=frac1nsum_i=1n(x_i−barx)(y_i−bary)
共分散 = frac1データ数times Σ{(個々のXのデータ - Xの平均値) × (個々のYのデータ - Yの平均値)}
例えば、5人の生徒の数学(x)と物理(y)の点数から共分散を計算すると、「370」というプラスの値が得られました。(詳細な計算は省略します)
この結果から、「この5人の生徒においては、数学の点数が高い人ほど、物理の点数も高い傾向にある」という関係性の方向がわかりました。
共分散の弱点
便利な共分散ですが、大きな弱点があります。それは、「値の大きさ自体には意味がない」ということです。
共分散の値は、データの単位(例: cmかmか)によって大きく変わってしまいます。そのため、共分散が「370」だからといって、その関係が「どれくらい強い」のかを判断することはできません。
あくまで「プラスか、マイナスか」という方向性を見るための指標だと覚えておいてください!
STEP2:関係性の「強さ」を測る「相関係数」
共分散の弱点、「関係の強さがわからない」を完璧に克服してくれるスーパーヒーローが「相関係数(そうかんけいすう)」です。
相関係数って、何がすごいの?
相関係数とは、ずばり「二つのデータの関係性の『方向』と『強さ』を、-1から1の範囲の数値で示してくれる最強の指標」のことです。
どんなデータで計算しても、必ず-1から1の間に収まるという素晴らしい特徴を持っています。これにより、単位が全く違うデータ同士の関係性も、同じ土俵で比較できるようになるのです。
相関係数(r)の値 | 関係性 |
r=1 | 完全な正の相関 |
r が1に近い | 強い正の相関 |
r が0に近い | ほとんど相関なし |
r が-1に近い | 強い負の相関 |
r=−1 | 完全な負の相関 |
値が1や-1に近づくほど関係性が強く、0に近づくほど弱いと言えます。
どうやって「関係の強さ」を測っているの?
その秘密は、計算方法に隠されています。
相関係数は、先ほど求めた「共分散」を、「それぞれのデータの標準偏差で割る」ことで求められます。
標準偏差とは、データのばらつき具合を示す指標で、「データが平均値から、だいたいどれくらい離れているか」を表す数値です。
共分散という「二つのデータが一緒に動く度合い」を、それぞれのデータが持つ元々の「ばらつき度合い(標準偏差)」で割ってあげる。
これにより、単位の影響をキャンセルし、純粋な「関係性の強さの割合」を-1から1の数値で表すことができるのです。
相関係数の数式と計算例
数式は以下のようになります。
latexr=fracS_xyS_xS_y
相関係数 = frac共分散(Xの標準偏差)times(Yの標準偏差)
先ほどの数学と物理のデータで計算してみましょう。
- 共分散:370
- 数学の標準偏差:約18.55
- 物理の標準偏差:約21.21
相関係数 r=frac37018.55times21.21approx0.94
計算の結果、相関係数は約「0.94」となりました!この値は1に非常に近く、「数学と物理の点数には、極めて強い正の相関がある」と関係の強さまで結論づけることができます。
最も重要な注意点:相関は因果ではない!
ここで、絶対に忘れてはいけないルールがあります。それは、「相関関係は、因果関係を意味しない」ということです。これを絶対に忘れるな!
例えば、「アイスクリームの売上」と「水難事故の発生件数」には強い正の相関が見られます。しかし、「アイスが売れるから水難事故が起きる」わけではありませんよね。
本当の原因は「気温」です。気温が上がるから、アイスが売れ、海に行く人が増えて事故も増えるのです。
相関係数はあくまで「連動して動いている」ことを示すだけで、その理由までは教えてくれません。注意してくださいね。
STEP3:データを公平に扱う「正規化と標準化」
さて、データ間の関係性を測れるようになりました。しかし、分析を進める前にもう一つ重要な「下準備」があります。それが特徴量のスケーリングです。
例えば、「テストの点数(0〜100点)」と「アンケート評価(1〜5点)」のように、データの尺度(スケール)が全く違う場合、数値の大きい「テストの点数」の影響が不当に大きくなってしまいます。
そこで、各データを公平に扱うために尺度を揃える作業が必要になります。その代表的な手法が「正規化」と「標準化」です。
正規化:全員を「0から1の部屋」に押し込める!
正規化とは、「データの値を、0から1の範囲にギュッと収まるように変換する」手法です。別名「最小最大スケーリング(Min-Max Scaling)」とも呼ばれます。
データの中の最小値を0、最大値を1として、他のデータはその間に収まるように変換します。
latexX_norm=fracX−X_minX_max−X_min
- メリット:値が必ず0から1に収まるので解釈しやすいです。
- デメリット:極端な値(外れ値)に非常に弱いです。外れ値が一つでもあると、他のデータが狭い範囲に押し込められてしまい、差がわからなくなってしまいます。
標準化:平均的な人を「基準の0」にする!
標準化とは、「データの平均値を0、標準偏差を1になるように変換する」手法です。変換後の値は「Zスコア」とも呼ばれます。
データの平均値を基準の「0」とし、そこから標準偏差いくつぶん離れているかで値を表します。
latexZ=fracX−musigma
- メリット:外れ値の影響を受けにくい、より頑健な手法です。多くの機械学習アルゴリズムで好まれます。
- デメリット:変換後の値が特定の範囲に収まるわけではありません。
結局、どっちを使えばいいの?
これが一番知りたいことですよね。初心者のための鉄則はこれです。
迷ったら、まずは「標準化」を試せ!
標準化は外れ値に対して強く、多くの場面でより安定した結果をもたらすため、データ分析の世界ではまず標準化を適用するのが一般的なセオリーとなっています。
正規化 (Min-Max) | 標準化 (Z-score) | |
目的 | データを特定の範囲(0~1)に収める | データの分布を平均0, 標準偏差1に変換する |
使いどき | ・外れ値がないとわかっている場合 ・値の範囲に意味がある場合 | ・迷ったら、まずこちら ・データに外れ値が含まれる可能性がある場合 ・多くの機械学習モデル |
弱点 | 外れ値に非常に弱い | 変換後の値の範囲が定まらない |
まとめと次へのステップ
今回は、データ分析の基本となる3つの重要なステップを巡る旅をしてきました。
- 共分散で、2つのデータの関係性の「方向」を知る。
- 相関係数で、その関係性の「強さ」を-1から1の客観的な物差しで測る。
- 正規化・標準化で、尺度の違うデータを分析のために公平な状態に整える。
この流れを理解できたあなたは、もうデータ分析の初心者を卒業したと言っても過言ではありません!
さて、データ同士の関係性を理解し、データを綺麗に整える方法も学びました。次はいよいよ、そのデータを使って「予測」をするステップに進んでみたくなりますよね。
次のステップとしては、「回帰分析(かいきぶんせき)」を学んでみるのがおすすめです。数学の点数から物理の点数を予測する、といったことができるようになりますよ!
まずはこの記事の内容をしっかり復習して、データの世界をもっと楽しんでくださいね!
セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
最新の投稿
山崎講師2025年8月22日データ分析入門:共分散から相関係数、正規化・標準化までを徹底解説!
山崎講師2025年8月22日共分散とは?初心者にもわかるように相関との違いを解説!
山崎講師2025年8月22日進化生物学が解き明かす感情の謎:なぜ私たちは笑い、泣き、怒るのか?
山崎講師2025年8月22日プラナリアの実験から学ぶ「因果律」- 当たり前を疑う知の探求