KLダイバージェンスとクロスエントロピー

予測分布 Q(x) を動かしてみよう

平均 (μ): 0

標準偏差 (σ): 1

計算結果

D_KL(P || Q) = ?

D_KL(Q || P) = ?

H(P, Q) = ?

H(P, Q) = -∑ P(x) log(Q(x))

解説

KLダイバージェンスは、2つの確率分布の「違い」を測る指標です。

P(x) (青線): 「真の分布」や「正解」を表します。この分布は固定です。
Q(x) (赤線): 私たちが作った「予測分布」です。スライダーで形を変えられます。

KLダイバージェンスのポイント

値が0に近づくほど似ている:
予測分布Q(x)が真の分布P(x)に近づくほど、KLダイバージェンスの値は0に近づきます。完全に一致すると0になります。
距離ではない (非対称):
D_KL(P || Q) と D_KL(Q || P) の値は異なります。
P(x)が高い場所でのズレに敏感:
D_KL(P || Q)は、P(x)が大きい（＝重要な）領域でQ(x)がずれていると、値が非常に大きくなります。

クロスエントロピーとの関係

クロスエントロピーも、KLダイバージェンスと非常によく似た指標で、特に機械学習の「損失関数」として頻繁に使われます。

KLダイバージェンスとは、以下の関係があります。

H(P, Q) = H(P) + D_KL(P || Q)

(H(P)は分布P自身のエントロピー)

P(x)が変化しない「正解」の分布である場合、そのエントロピーH(P)は定数になります。そのため、クロスエントロピーを最小化することは、KLダイバージェンスを最小化することと同じ意味になります。計算が簡単なため、実用上はクロスエントロピーが損失関数として好んで使われます。