自由度調整済み決定係数とは？

2024年9月28日 2024年9月29日山崎講師

山崎講師

自由度調整済み決定係数について、簡単に解説しますね！

1. 決定係数 ( R^2 ) とは？

まず、決定係数 ( R^2 ) についてお話ししましょう。これは、「どれくらいデータを説明できているか」を表す数字です。たとえば、あるクラスの生徒たちのテストの点数を、勉強時間から予測するとしましょう。もしモデルがテストの点数を完璧に予測できたら、( R^2 = 1 ) になり、モデルがテストの点数の100%を説明できているということです。

逆に、モデルがまったく役に立たなかったら、( R^2 = 0 ) になり、「このモデルはデータを全然説明できていない」ということになります。

2. 説明する変数を増やすとどうなる？

テストの点数を予測するために、勉強時間だけでなく、たとえば「睡眠時間」や「塾に行っているかどうか」などの他の要素も追加したらどうなるでしょうか？説明する要素（変数）を増やすと、予測がもっと正確になるかもしれませんね。

実際、こうやって変数を増やすと、通常の ( R^2 ) は必ず大きくなります。というのも、説明する要素が増えれば、少しでもデータに合いやすくなるからです。でも、これって問題があるんです。

3. 説明する変数が多すぎると何が問題？

変数をたくさん増やすと、無理やりモデルをデータに合わせることができるようになります。たとえば、「今日は運がいい日かどうか」みたいな、実はあまり関係ない要素まで追加すれば、モデルがデータにフィットするように見えてしまいます。

でも、それだと本当に重要な要素が見えにくくなってしまいますよね。これを「過剰適合（オーバーフィッティング）」といいます。過剰適合は、データに対してモデルが無理に合わせすぎて、実際にはあまり良い予測ができなくなる状態です。

4. 自由度調整済み決定係数 ( \bar{R}^2 ) の登場！

ここで出てくるのが、自由度調整済み決定係数です。これの役割は、「変数を増やしすぎていないかをチェックする」ことです。

自由度調整済み決定係数 ( \bar{R}^2 ) は、変数が増えてもその影響を考慮して、モデルが本当にデータをうまく説明できているかを評価してくれます。もし新しい変数を追加しても、モデルがデータをうまく説明できていないなら、調整済み決定係数はむしろ小さくなるんです。

つまり、本当に良い変数だけを使ったときにしか、調整済み決定係数が大きくならないように工夫されているのです。

5. 簡単な例で説明

例えば、クラスのテストの点数を予測するために、次の2つのモデルを考えてみましょう。

モデルA: 勉強時間だけで予測
モデルB: 勉強時間、睡眠時間、好きなテレビ番組まで含めて予測

普通の決定係数 ( R^2 ) だと、モデルBは変数が多いので、必ずモデルAよりも高い値になります。だけど、好きなテレビ番組ってテストの点数に関係ないですよね？そのため、調整済み決定係数 ( \bar{R}^2 ) を使うと、モデルBはあまり役に立たないと判断され、モデルAの方が良いモデルだと分かるかもしれません。

6. まとめ

決定係数 ( R^2 ) は、モデルがデータをどれくらい説明できているかを示す指標です。
ただし、説明する変数が多すぎると、過剰にデータに合わせすぎてしまうことがあります。
自由度調整済み決定係数 ( \bar{R}^2 ) は、その過剰適合を防ぎ、変数の数に応じて正しい評価ができるように工夫された指標です。

自由度調整済み決定係数は、「本当に大事な要素だけを使ってモデルを作りましょう！」と教えてくれる便利な道具です。

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。