正則化と特徴量スケーリングの重要性
「経験年数」と「試験スコア」から「給与」を予測するモデルを例に、各手法の役割を見てみましょう。
モデルが学習した特徴量の重み
学習モード
1. そのまま学習
2. L2正則化 (Ridge)
3. 標準化 + L2正則化
正則化の強さ (λ):
0.1
解説: なぜスケーリングと正則化が必要か?
1. そのまま学習
特徴量のスケール(単位や範囲)が大きく異なると、モデルはスケールが大きい特徴量(この場合は0~100点の「試験スコア」)を過度に重視し、大きな重みを割り当てがちです。これでは、本来重要かもしれない「経験年数」が軽視されてしまいます。
2. L2正則化 (Ridge)
正則化は、モデルの重みが大きくなりすぎるのを防ぐ
ペナルティ
を課すことで、過学習を抑制する技術です。`λ`の値を大きくするほどペナルティが強くなり、重みが0に近づいていくのが分かります。しかし、スケールが違うデータにそのまま適用すると、もともと値が大きい「試験スコア」の重みだけが不公平に小さくされてしまい、やはり公平な評価ができません。
3. 標準化 + L2正則化
そこで、まず
標準化
を行います。これは、すべての特徴量を平均0、標準偏差1の同じ土俵(スケール)に揃える前処理です。これにより、各特徴量の単位や範囲の違いがなくなります。このスケールが揃ったデータに対して正則化を適用することで、初めて
全ての特徴量を公平に評価
し、本当に重要な特徴量に適切な重みを割り当てることができます。これが、多くの機械学習プロジェクトで「まずデータを標準化する」ことが推奨される理由です。