散布図で学ぶ過学習(Overfitting)

3
訓練誤差 (対 訓練データ): 0.00
真の誤差 (対 真の関数): 0.00

過学習とは? - 「勉強しすぎ」のワナ

過学習(Overfitting)は、機械学習モデルを訓練する際に発生する最も一般的な問題の一つです。これは、モデルが訓練データに「適応しすぎて」、そのデータの細かいノイズや偶然のパターンまで学習してしまった状態を指します。その結果、訓練データに対しては非常に高い精度を出しますが、未知の新しいデータに対しては全く役に立たない「応用力のないモデル」になってしまいます。

このデモで観察するポイント

スライダーを動かして体験しよう!

  1. モデルの複雑さが低い時 (次数: 1〜3) - 学習不足 (Underfitting)
    赤い線は訓練データの全体的な傾向を捉えられていません。訓練誤差も真の誤差も両方高い状態です。これはモデルが単純すぎて、データの特徴を十分に学習できていないことを意味します。
  2. モデルの複雑さが適切な時 (次数: 4〜6あたり) - ちょうど良い学習
    赤い線が、緑の「真の関数」に非常に近くなります。このとき、真の誤差が最も小さくなります。これが、未知のデータに対しても高い性能を発揮できる、汎用性の高い「良いモデル」です。
  3. モデルの複雑さが高すぎる時 (次数: 7以上) - 過学習 (Overfitting)
    赤い線は、全ての青い点を無理やり通ろうとして、グニャグニャと不自然に曲がり始めます。その結果、訓練誤差はどんどん小さくなりますが、緑の「真の関数」からは大きく外れてしまい、真の誤差は逆に増大していきます。これが典型的な過学習です。このモデルは、訓練データには完璧にフィットしていますが、新しいデータが来ても全く正しい予測はできません。

AI開発者は、この「訓練誤差」と「真の誤差(実際には検証データ誤差で代用)」のバランスを常に見ながら、モデルが過学習に陥らないように、モデルの複雑さを調整したり、正則化などのテクニックを使ったりしています。