【正則化と割り算:過学習を防ぐ“バランス調整”の数理とは?】

こんにちは。ゆうせいです。
前回は、回帰分析における割り算の正体に迫りました。
回帰係数が「変化の割合(傾き)」として、共分散 ÷ 分散で計算されていることを確認しましたね。
さて今回は、機械学習でよく使われる「正則化(せいそくか)」についてお話しします。
この「正則化」、一見すると複雑に見えるのですが……
実はここにも「割り算の考え方」が隠れています!
- なぜモデルの重みを小さくする必要があるの?
- L1とL2の違いって?
- 割り算とどんな関係があるの?
このあたりを、例えと図を交えてやさしく解説していきます!
1. 正則化とは何か?
正則化(regularization)とは、機械学習のモデルが複雑になりすぎて“過学習”を起こさないように調整する仕組みのことです。
「過学習」とは、学習データにピッタリ合いすぎて、新しいデータにうまく対応できなくなる状態のこと。
たとえるなら、試験の答えを丸暗記してしまって、ちょっと問題が変わっただけでパニックになるようなものですね。
2. 正則化の仕組み:コスト関数に“ペナルティ”を足す
通常の回帰分析では、予測と実データの差(誤差)を最小にするように学習します。
でも正則化では、そこに重み(係数)の大きさに対する“罰金”を追加します。
その結果、モデルは次のような方針で学習するようになります:
- 誤差を小さくしたい
- でも重みを大きくすると罰金がかかる
- ならば「ほどよい重み」で我慢しよう!
この考え方が、まさに「バランスの取れた学習」なのです。
3. 具体的な数式を見てみよう
【リッジ回帰(L2正則化)】
(ロス=予測誤差の二乗和たす、ラムダかける重みの二乗和)
ここで:
- $y_i$:実データ
- $\hat{y}_i$:予測値
- $w_i$:回帰係数(重み)
- $\lambda$(ラムダ):罰金の強さを調整する係数(ハイパーパラメータ)
【ラッソ回帰(L1正則化)】
ラッソでは「重みの絶対値」に罰金をかけます。
これにより、いくつかの重みが完全に0になるという特徴があります。
4. 割り算との関係は?
ここでようやく「割り算の視点」に戻ります。
リッジ回帰を解析的に解くと、回帰係数は次のような形になります:
これは一見割り算に見えませんが、行列の逆行列はスカラーの割り算の拡張です。
たとえば、通常の線形回帰での係数は:
でしたね?
正則化を加えると、分母側に罰金(λ)が加わるイメージになります。
つまり、割り算の分母を大きくして、w(係数)の値を抑える効果があるのです!
5. 図でイメージしよう!
【図1:通常回帰 vs リッジ回帰】
- 横軸:w(重みの値)
- 縦軸:Loss(損失)
- 通常回帰:損失が最小になるところが深い谷
- リッジ回帰:谷に「幅」ができて、wが小さめになるように抑えられる
6. L1とL2の違いって?
特徴 | L1正則化(ラッソ) | L2正則化(リッジ) |
---|---|---|
罰金の形 | 絶対値 | 二乗 |
結果 | 重みが0になることが多い | 重みが少しずつ縮む |
特徴選択に向いてる | ○ | △ |
計算の滑らかさ | 不連続な変化あり | なめらか |
7. 割り算の意味は「強さの調整と抑制」
ここでも、割り算は「どれくらい強く抑えるか?」という視点で登場しています。
- 分母が大きい=影響を弱める(=重みを小さくする)
- λが大きい=より小さな重みに抑えつけられる
この考え方は、割り算の本質である「比率の調整」そのものです!
まとめ
- 正則化は「過学習を防ぐための罰金システム」
- 数式の中では、割り算的な操作で係数を小さくしている
- リッジ回帰は重みを均等に縮める
- ラッソ回帰は重みをゼロにする力が強い
- 割り算の本質は「影響力の調整」にも現れている!
次回予告:「割り算の“本質”を支える数理:スケーリングと正規分布の関係」
次回は、割り算と深い関係を持つ「スケーリング(尺度の調整)」と「正規分布」の関係に迫ります。
- なぜ標準正規分布は平均0・分散1なのか?
- なぜスケーリングに割り算が使われるのか?
- 正規分布とzスコアの“美しい関係”とは?
数式と図を通して、「割り算」が統計の基本構造をどう支えているかを掘り下げていきます!
どうぞお楽しみに!
生成AI研修のおすすめメニュー
投稿者プロフィール

- 代表取締役
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
最新の投稿
全ての社員2025年7月14日Precisionと事後確率の違いとは?ベイズの定理は不要になるのか徹底解説
全ての社員2025年7月11日【第3章:回帰分析と掛け算 ― 係数が持つ“影響力”の意味】
全ての社員2025年7月11日【第2章:期待値と掛け算 ― 平均の裏にある重みづけの構造】
全ての社員2025年7月11日【第1章:確率における掛け算 ― 依存と独立をつなぐ橋】