【正則化と割り算:過学習を防ぐ“バランス調整”の数理とは?】

こんにちは。ゆうせいです。

前回は、回帰分析における割り算の正体に迫りました。
回帰係数が「変化の割合(傾き)」として、共分散 ÷ 分散で計算されていることを確認しましたね。

さて今回は、機械学習でよく使われる「正則化(せいそくか)」についてお話しします。

この「正則化」、一見すると複雑に見えるのですが……
実はここにも「割り算の考え方」が隠れています!

  • なぜモデルの重みを小さくする必要があるの?
  • L1とL2の違いって?
  • 割り算とどんな関係があるの?

このあたりを、例えと図を交えてやさしく解説していきます!


1. 正則化とは何か?

正則化(regularization)とは、機械学習のモデルが複雑になりすぎて“過学習”を起こさないように調整する仕組みのことです。

「過学習」とは、学習データにピッタリ合いすぎて、新しいデータにうまく対応できなくなる状態のこと。

たとえるなら、試験の答えを丸暗記してしまって、ちょっと問題が変わっただけでパニックになるようなものですね。


2. 正則化の仕組み:コスト関数に“ペナルティ”を足す

通常の回帰分析では、予測と実データの差(誤差)を最小にするように学習します。

でも正則化では、そこに重み(係数)の大きさに対する“罰金”を追加します。

その結果、モデルは次のような方針で学習するようになります:

  • 誤差を小さくしたい
  • でも重みを大きくすると罰金がかかる
  • ならば「ほどよい重み」で我慢しよう!

この考え方が、まさに「バランスの取れた学習」なのです。


3. 具体的な数式を見てみよう

【リッジ回帰(L2正則化)】

\text{Loss} = \sum (y_i - \hat{y}_i)^2 + \lambda \sum w_i^2

(ロス=予測誤差の二乗和たす、ラムダかける重みの二乗和)

ここで:

  • $y_i$:実データ
  • $\hat{y}_i$:予測値
  • $w_i$:回帰係数(重み)
  • $\lambda$(ラムダ):罰金の強さを調整する係数(ハイパーパラメータ)

【ラッソ回帰(L1正則化)】

\text{Loss} = \sum (y_i - \hat{y}_i)^2 + \lambda \sum |w_i|

ラッソでは「重みの絶対値」に罰金をかけます。
これにより、いくつかの重みが完全に0になるという特徴があります。


4. 割り算との関係は?

ここでようやく「割り算の視点」に戻ります。

リッジ回帰を解析的に解くと、回帰係数は次のような形になります:

\hat{w} = \left(X^TX + \lambda I\right)^{-1}X^Ty

これは一見割り算に見えませんが、行列の逆行列はスカラーの割り算の拡張です。

たとえば、通常の線形回帰での係数は:

\hat{w} = \frac{\text{Covariance term}}{\text{Variance term}}

でしたね?

正則化を加えると、分母側に罰金(λ)が加わるイメージになります。
つまり、割り算の分母を大きくして、w(係数)の値を抑える効果があるのです!


5. 図でイメージしよう!

【図1:通常回帰 vs リッジ回帰】

  • 横軸:w(重みの値)
  • 縦軸:Loss(損失)
  • 通常回帰:損失が最小になるところが深い谷
  • リッジ回帰:谷に「幅」ができて、wが小さめになるように抑えられる

6. L1とL2の違いって?

特徴L1正則化(ラッソ)L2正則化(リッジ)
罰金の形絶対値二乗
結果重みが0になることが多い重みが少しずつ縮む
特徴選択に向いてる
計算の滑らかさ不連続な変化ありなめらか

7. 割り算の意味は「強さの調整と抑制」

ここでも、割り算は「どれくらい強く抑えるか?」という視点で登場しています。

  • 分母が大きい=影響を弱める(=重みを小さくする)
  • λが大きい=より小さな重みに抑えつけられる

この考え方は、割り算の本質である「比率の調整」そのものです!


まとめ

  • 正則化は「過学習を防ぐための罰金システム」
  • 数式の中では、割り算的な操作で係数を小さくしている
  • リッジ回帰は重みを均等に縮める
  • ラッソ回帰は重みをゼロにする力が強い
  • 割り算の本質は「影響力の調整」にも現れている!

次回予告:「割り算の“本質”を支える数理:スケーリングと正規分布の関係」

次回は、割り算と深い関係を持つ「スケーリング(尺度の調整)」と「正規分布」の関係に迫ります。

  • なぜ標準正規分布は平均0・分散1なのか?
  • なぜスケーリングに割り算が使われるのか?
  • 正規分布とzスコアの“美しい関係”とは?

数式と図を通して、「割り算」が統計の基本構造をどう支えているかを掘り下げていきます!

どうぞお楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。