バッチ正規化の名前は何から来てるの?


こんにちは。ゆうせいです。
今回は、ディープラーニングの学習を語るうえで非常に重要な概念、
「内部共変量シフト(Internal Covariate Shift)」について、やさしく・丁寧に解説していきます。

名前がちょっと難しくて、「なんだか取っつきにくい…」と感じたことはありませんか?
でも大丈夫。名前の意味から出発して、仕組みや問題点、解決方法まで、順を追って解説していきます!


内部共変量シフトとは何か?

まず、言葉を分解してみましょう。

用語意味
内部(Internal)ニューラルネットワークの中間層(内部)のこと
共変量(Covariate)入力される変数(特徴量)のこと
シフト(Shift)分布が変化すること

これを合わせると、
「ネットワークの中間層に入力される値(共変量)の分布が、学習の途中で変化してしまうこと」
それが内部共変量シフトです。


どうして分布が変わるのか?

ニューラルネットワークの各層では、前の層の出力を受け取って計算を行います。

でも、前の層のパラメータ(重みやバイアス)は学習のたびに更新されますよね?
すると当然、出力される値の分布も毎回微妙に変わってしまいます。

つまり:

前の層が変われば、その出力も変わる
→ それを受け取る次の層から見れば、「入力の分布がどんどん変わる」ように感じる

これが内部共変量シフトです。


たとえで説明!

ちょっとたとえてみましょう。

例:ピアノのレッスン

あなたがピアノを習っているとして、先生が毎週レッスンの内容をちょっとずつ変えてくるとします。

  • 今週はクラシック、来週はジャズ、その次は現代音楽…
  • 毎回スタイルやルールが違うと、上達が遅くなりますよね?

それと同じように、入力の分布が変わると、後ろの層がうまく学習できなくなってしまうのです。


内部共変量シフトが起こると何が困る?

  1. 学習が遅くなる
     → 後ろの層が毎回「新しい分布」に適応しなければならないため。
  2. 学習が不安定になる
     → 特定の層の出力が極端な値になってしまい、勾配が爆発したり消失したりする。
  3. 最適なパラメータにたどり着きにくくなる
     → 層ごとの「情報の流れ」が乱れるから。

解決方法:バッチ正規化(Batch Normalization)

この内部共変量シフトに対処するために開発されたのが、前回お話しした「バッチ正規化」です!

なぜバッチ正規化で解決できるのか?

  • 各バッチごとに平均と分散をそろえることで、
     出力の分布を安定させることができます。
  • これにより、次の層に渡すデータの「顔ぶれ」が毎回大きく変わらなくなる

つまり、後ろの層から見たときに「また分布が変わってる!」という混乱がなくなるわけですね。


図で見てみよう!

以下は内部共変量シフトのイメージ図です。

  • 横軸:値の範囲(例えば活性化出力)
  • 線:分布の形
[学習初期]      [中盤]         [後半]
|-----|        |-----|        |-----|
   ↓              ↓              ↓
   ● ←平均      ●● ←平均        ●●● ←平均
分布がどんどん変わる

→ 各層が毎回違う分布の入力に対処することになってしまう!

バッチ正規化を入れると、これを次のように「安定」させられます:

[すべてのバッチで平均0・分散1になる]
|---0---|                常に安定した分布!

名前の意味まとめ

用語名意味
内部(Internal)ネットワークの中間層内部で
共変量(Covariate)入力される特徴量(出力も含む)
シフト(Shift)分布の変化
→ 内部共変量シフト学習中に中間層の出力の分布が変化してしまう現象

今後の学習の指針

内部共変量シフトを理解したら、次は以下のような内容に進むのがおすすめです:

  1. バッチ正規化以外の正規化手法(Layer Norm, Instance Norm, Group Norm)を比べてみる
  2. 「勾配消失・勾配爆発」との関係性を理解する
  3. 実際の学習で「正規化あり/なし」の効果を可視化してみる

名前の意味から仕組みを理解することは、機械学習を深く学ぶための強力な武器になります。
これからも「なぜそう呼ばれているのか?」に注目しながら、知識を深めていきましょう!

いつでも質問待っています!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。