決定係数が相関係数の2乗になる理由

決定係数が相関係数の2乗になる理由をわかりやすく解説しますね。

まず、相関係数とは?

相関係数というのは、2つのものがどれだけ関係しているかを数字で表したものです。例えば、勉強時間とテストの点数の関係を調べたいとき、相関係数が使えます。もし、勉強時間が増えるとテストの点数も上がるなら、これは「正の相関」といって、相関係数の値が0より大きくなります。逆に、勉強時間が増えても点数が全く変わらなければ相関係数は0に近づきます。

相関係数は、-1から1までの範囲の数字です。1に近いと「すごく強い関係がある」、-1に近いと「逆の関係がすごく強い」という意味です。例えば、相関係数が1なら「勉強時間が長ければ長いほど点数が上がる」、相関係数が-1なら「勉強時間が長ければ長いほど点数が下がる」といった強い関係を示します。

決定係数とは?

一方で、決定係数は「どれだけ予測が正確か」を表す数字です。たとえば、ある先生が「君のテストの点数を予測できるよ!」と言って、予測してみたとします。この決定係数は、先生の予測がどれだけ正しかったかを評価します。

決定係数は、0から1までの範囲で、1に近いほど「予測がすごく当たっている」という意味です。例えば、決定係数が0.8だとしたら、先生の予測は80%当たっていて、残りの20%は他の原因(たとえば、体調や運など)によるものということになります。

どうして相関係数の2乗が決定係数になるの?

さて、相関係数と決定係数の関係ですが、これを身近な例で説明してみましょう。

相関係数は、「2つのものがどれだけ一緒に動いているか」を表す数字でしたね。例えば、勉強時間とテストの点数がすごく関係しているときは、相関係数が大きくなります。そして、この関係が強いほど、テストの点数を予測するのが簡単になります。

ここで、相関係数の2乗を考えてみましょう。例えば、相関係数が0.9なら、これを2乗すると0.81になります。実は、この0.81という数字が、「勉強時間だけでテストの点数をどれだけ正確に予測できるか」という意味を持つのです。これが決定係数です。

なぜ2乗するのかというと、相関係数がプラスでもマイナスでも、その強さを決定係数で表したいからです。2乗することで、負の相関(-0.9など)でも、その関係が強ければ「正確に予測できる」と評価できるようになります。

例を使って説明

たとえば、相関係数が0.8だとしましょう。これは、「勉強時間とテストの点数には強い正の関係がある」ということです。これを2乗すると、0.64になります。つまり、勉強時間だけでテストの点数の64%は予測できるということになります。残りの36%は、たとえば運や他の要因(体調、気分など)によるものです。

もし相関係数が-0.8の場合でも、その2乗は同じく0.64になります。負の相関の場合でも、その関係が強ければ、「点数の64%は説明できる」という同じ結果になります。ここで、負の相関があっても予測の精度は同じであることがわかります。

基本的な決定係数の求め方は、相関係数の2乗でしたが、これ以外にも決定係数を求める方法があります。たとえば、もっと複雑なモデルや異なる種類のデータを扱う場合です。ここでは、3つの別の方法について説明します。

1. 残差平方和を使った方法

決定係数を求める最も基本的な方法のひとつに、残差平方和を使う方法があります。まず、「残差」という言葉を簡単に説明しますね。残差というのは、モデルが予測した値と、実際のデータとのズレのことです。たとえば、勉強時間からテストの点数を予測した場合、予測した点数と実際の点数がぴったり合わないことが多いですよね。このズレが「残差」です。

この残差を使って、次のように決定係数を計算できます。

どういう意味か?
この式は、「実際のデータとモデルの予測がどれだけズレているか(残差平方和)」を、「データ全体が平均値からどれだけズレているか(偏差平方和)」で比較しています。この比較をすることで、モデルがデータをどれだけうまく説明できているかを判断します。

もしモデルがデータを完璧に説明できていたら、残差はゼロになり、決定係数 R2R^2R2 は1になります。逆に、モデルが全くデータを説明できていない場合は、残差平方和が偏差平方和と同じくらい大きくなり、決定係数は0になります。

2. 調整済み決定係数

次に、もう少し進んだ方法である「調整済み決定係数」があります。これは、特に複数の要因(変数)を使ったモデルでよく使われます。

例えば、テストの点数を勉強時間だけでなく、睡眠時間や塾に通った回数など、いくつかの要因を使って予測しようとするとします。ここで問題になるのは、要因(変数)を増やせば増やすほど、決定係数が無理やり大きくなってしまうということです。でも、それは必ずしも「良いモデル」というわけではありません。

そこで、調整済み決定係数は、変数の数を増やしても本当にモデルが良くなっているかどうかを考慮してくれます。これにより、たくさんの変数を使っても、実際にデータをうまく説明できていなければ、決定係数が高くなりすぎないように調整されます。

調整済み決定係数の計算式は少し複雑ですが、要点は「モデルが複雑すぎるのを防ぐために使われる」ということです。

3. 疑似決定係数

次に、疑似決定係数というものがあります。これは、ロジスティック回帰などの特殊なモデルで使われます。ロジスティック回帰というのは、結果が「はい」「いいえ」などの2択で出てくる場合に使われるモデルです。

たとえば、「テストの点数が50点以上かどうか」を予測する場合です。50点以上なら「はい」、50点未満なら「いいえ」といった2つの結果だけを予測するため、普通の決定係数ではうまくいきません。

疑似決定係数は、こうした2択の予測に使う特別な決定係数です。これも、予測がどれだけ正確かを評価するために使いますが、具体的な計算はロジスティック回帰という少し進んだ数学を使います。

まとめ

決定係数を求める方法にはいろいろなやり方がありますが、状況によって使い分けます。

  1. 相関係数の2乗:基本的な方法。データが2つの変数で関係しているときに使います。
  2. 残差平方和を使う方法:データとモデルのズレを使って計算する方法。どれだけデータをうまく説明できているかを測る。
  3. 調整済み決定係数:複数の要因を使ったときに、モデルが複雑すぎるのを防ぐために使う。
  4. 疑似決定係数:2択の結果を予測する特殊なモデルで使われる。

どの方法も、目的は「モデルがデータをどれだけうまく説明できているかを測る」ことです。今後、データ分析や統計を学ぶときには、どの決定係数がどんな場面で役立つのかを覚えておくと良いですよ!