正則化と特徴量スケーリングデモ

解説: なぜスケーリングと正則化が必要か？

1. そのまま学習: 特徴量のスケール（単位や範囲）が大きく異なると、モデルはスケールが大きい特徴量（この場合は0～100点の「試験スコア」）を過度に重視し、大きな重みを割り当てがちです。これでは、本来重要かもしれない「経験年数」が軽視されてしまいます。
2. L2正則化 (Ridge): 正則化は、モデルの重みが大きくなりすぎるのを防ぐペナルティを課すことで、過学習を抑制する技術です。`λ`の値を大きくするほどペナルティが強くなり、重みが0に近づいていくのが分かります。しかし、スケールが違うデータにそのまま適用すると、もともと値が大きい「試験スコア」の重みだけが不公平に小さくされてしまい、やはり公平な評価ができません。
3. 標準化 + L2正則化: そこで、まず標準化を行います。これは、すべての特徴量を平均0、標準偏差1の同じ土俵（スケール）に揃える前処理です。これにより、各特徴量の単位や範囲の違いがなくなります。このスケールが揃ったデータに対して正則化を適用することで、初めて全ての特徴量を公平に評価し、本当に重要な特徴量に適切な重みを割り当てることができます。これが、多くの機械学習プロジェクトで「まずデータを標準化する」ことが推奨される理由です。

正則化と特徴量スケーリングの重要性

モデルが学習した特徴量の重み

学習モード

解説: なぜスケーリングと正則化が必要か？