【決定係数 = 相関係数の2乗】なのはなぜ?新人エンジニアのために直感的に解説します
こんにちは。ゆうせいです。
データ分析の学習を始めると、必ずと言っていいほど登場する2つの指標がありますよね。そうです、相関係数と決定係数です。
参考書を読んでいると「単回帰分析では、決定係数は相関係数を2乗した値になる」なんてさらっと書いてあったりします。ここで、ふと疑問に思いませんか?
「え、なんで2乗なの?偶然?それとも何か深い意味があるの?」
その直感、素晴らしいです!この疑問をスルーせずに立ち止まれることが、エンジニアとして成長する第一歩ですよ。今日は、なぜこの2つの数字が「2乗」という関係で結ばれているのか、数式をなるべく使わずに、言葉とイメージで紐解いていきましょう。
初心者のあなたでも、読み終わる頃には「なるほど!」と膝を打っているはずです。
そもそも、この2人は誰なのか?
謎を解く前に、登場人物である2つの指標について、ざっくりと復習しておきましょう。高校生の数学を思い出してくださいね。
1. 相関係数(相関の強さと向き)
相関係数 は、2つのデータに「どれくらい強い直線的な関係があるか」を示す数字です。
たとえば、気温とアイスクリームの売上を想像してください。
気温が上がれば、アイスも売れますよね。片方が増えるともう片方も増える、これを「正の相関」と呼びます。逆に、気温が上がるとおでんの売上が下がるような関係を「負の相関」と呼びます。
この指標の特徴は、マイナス からプラス
までの値を取ることです。
に近い:強い正の相関(右肩上がり)
に近い:強い負の相関(右肩下がり)
に近い:関係がない
つまり、相関係数は「関係の強さ」だけでなく、「どっち向きに関係しているか(プラスかマイナスか)」という情報も持っているのです。
2. 決定係数(予測の当てはまり具合)
一方、決定係数 は、回帰分析において「作ったモデル(予測式)が、どれくらい実際のデータを説明できているか」を表すスコアです。
テストの点数だと思ってください。 なら100点満点、つまり完璧にデータを予測できています。
なら0点、全然見当違いということです。
決定係数の特徴は、必ず から
の間の値になることです。そう、マイナスにはなりません。ここが重要なヒントになります!
なぜ「2乗」するのか?直感的な2つの理由
さて、本題に入りましょう。単回帰分析( のような単純な直線の式)において、なぜ決定係数は相関係数の2乗になるのでしょうか。
理由1:マイナスを消し去り「パワー」だけ残したいから
最大の理由は、情報の「整理」です。
先ほどお話ししたように、相関係数は「マイナスの値」を取ることがあります。たとえば、相関係数が だとしましょう。これは「逆向きにめちゃくちゃ強い関係がある」ことを意味します。
しかし、決定係数が知りたいのは「予測モデルとしての優秀さ」です。
「右肩上がりか、右肩下がりか」という方向の情報は、予測精度の高さを評価する上では邪魔になることがあります。
そこで、数字を2乗します。
を計算してみてください。答えは
になりますよね。
こうすることで、マイナスの符号を取り払い、「関係の強さ」や「予測の確からしさ」という純粋なパワー(大きさ)だけに変換できるのです。
「向き」はいらない。「どれくらい説明できているかという割合」だけが欲しい。だから2乗してプラスに揃えている、とイメージしてください。
理由2:確率や面積のような「割合」にしたいから
少しだけ数学的な話をしますね。
相関係数はあくまで「関係の強さの指数」ですが、決定係数は「データのバラつきのうち、何%を説明できたか」という「割合」を表します。
実は統計の世界では、2乗することで「長さ」の概念から「面積」や「エネルギー」のような概念に変換されることがよくあります。
- 相関係数:ベクトルの向きの近さ(コサイン類似度に近い概念)
- 決定係数:全体に対する説明できた部分の割合
相関係数そのものよりも、それを2乗したほうが「全体を1としたときの割合」として扱いやすいという数学的な性質があるのです。
メリットとデメリットを知っておこう
この「2乗の関係」を理解した上で、分析するときにどう使い分ければいいのか、それぞれの良し悪しを見てみましょう。
相関係数を使うメリット・デメリット
- メリット:「プラスの関係なのか、マイナスの関係なのか」が一目でわかります。「気温が上がれば売上が下がる」といった具体的な対策を立てるには、この向きの情報が不可欠です。
- デメリット:あくまで2つの変数の関係を見るものなので、それだけで「予測モデルの精度」を語ることはできません。
決定係数を使うメリット・デメリット
- メリット:モデルの精度を「パーセント」のように直感的に評価できます。「このモデルはデータの動きの80%を説明できています」と言えば、上司やお客さんにも伝わりやすいですよね。
- デメリット:方向(プラスかマイナスか)の情報が消えています。また、とりあえず変数をたくさん追加すると、中身が伴っていなくても数値だけ上がってしまうという厄介な性質もあります。
まとめ:2乗は「翻訳」のプロセス
いかがでしたか?
単回帰分析において「決定係数 相関係数の2乗」となるのは、単なる偶然ではありません。
「向きと強さ」を持つ相関係数から、向きの情報を取り払い、「どれくらい説明できているかという割合(パワー)」に翻訳するプロセスが、まさに「2乗」だったのです。
- 相関係数
:関係の向きと強さ
- 決定係数
:モデルの説明力(割合)
この違いを意識するだけで、データを見たときの解像度がぐっと上がりますよ!
今後の学習の指針
今回は「単回帰分析(変数が1つ)」というシンプルな世界での話でした。
しかし、現実のデータ分析では、要因が1つだけなんてことはまずありません。「気温」だけでなく「曜日」や「キャンペーンの有無」など、たくさんの要因が絡み合います。これを「重回帰分析」と言います。
次はぜひ、「自由度調整済み決定係数」というキーワードについて調べてみてください。変数をただ増やすだけではダメな理由が分かり、エンジニアとしてさらにレベルアップできるはずです。
一緒に頑張っていきましょう!
セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク
投稿者プロフィール
- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。