KLダイバージェンスとクロスエントロピー

予測分布 Q(x) を動かしてみよう

計算結果

DKL(P || Q) = ?
DKL(Q || P) = ?
H(P, Q) = ?

H(P, Q) = -∑ P(x) log(Q(x))

解説

KLダイバージェンスは、2つの確率分布の「違い」を測る指標です。

  • P(x) (青線): 「真の分布」や「正解」を表します。この分布は固定です。
  • Q(x) (赤線): 私たちが作った「予測分布」です。スライダーで形を変えられます。

KLダイバージェンスのポイント

  1. 値が0に近づくほど似ている:
    予測分布Q(x)が真の分布P(x)に近づくほど、KLダイバージェンスの値は0に近づきます。完全に一致すると0になります。
  2. 距離ではない (非対称):
    D_KL(P || Q)D_KL(Q || P) の値は異なります。
  3. P(x)が高い場所でのズレに敏感:
    D_KL(P || Q)は、P(x)が大きい(=重要な)領域でQ(x)がずれていると、値が非常に大きくなります。

クロスエントロピーとの関係

クロスエントロピーも、KLダイバージェンスと非常によく似た指標で、特に機械学習の「損失関数」として頻繁に使われます。

KLダイバージェンスとは、以下の関係があります。

H(P, Q) = H(P) + DKL(P || Q)

(H(P)は分布P自身のエントロピー)

P(x)が変化しない「正解」の分布である場合、そのエントロピーH(P)は定数になります。そのため、クロスエントロピーを最小化することは、KLダイバージェンスを最小化することと同じ意味になります。計算が簡単なため、実用上はクロスエントロピーが損失関数として好んで使われます。