【割り算と情報理論:エントロピーとKLダイバージェンスの本質に迫る】

こんにちは。ゆうせいです。

これまで、「割り算」が統計や機械学習のさまざまな場面でどう使われているかを丁寧に追いかけてきましたね。

今回はその集大成とも言えるテーマ、情報理論の中に現れる割り算の意味を掘り下げていきます!

登場するのは:

  • エントロピー(Entropy)
  • KLダイバージェンス(Kullback–Leibler divergence)

難しそうな名前ですが、これらは「情報の量」や「確率分布の違い」を測るための指標です。
そしてこの中にも、実はしっかりと割り算の構造が潜んでいます。


1. 情報理論とは何をする学問?

情報理論(information theory)は、情報の「量」や「不確かさ」を定量的に測るための学問です。

この考え方は、通信・圧縮・統計・機械学習・自然言語処理など、非常に広い分野で活躍しています。

でもそもそも、こんな疑問ありませんか?

情報ってどうやって「量」を測るの?
データの「違い」ってどうやって数式にするの?

この問いに応えるのが、エントロピーとKLダイバージェンスなんです。


2. エントロピー:情報の「平均的な驚き」

まずはエントロピーの定義から。

エントロピーは、ある確率分布のもとで得られる情報の不確実さ(=どれだけ意外性があるか)を測ります。

数式はこうです:

H(P) = - \sum_{i} p(x_i) \log p(x_i)
(エイチピーは、マイナスかける、各確率×その対数の和)

この式の意味はこうです:

  • p(xᵢ):ある事象xᵢの確率
  • log p(xᵢ):その事象がどれだけ「意外」か
  • p(xᵢ) × log p(xᵢ):意外性 × 発生頻度 → 情報量の平均

つまり、「頻繁に起きるものは情報量が小さく、めったに起きないことは情報量が大きい」
という考え方に基づいています。


3. 割り算の登場:KLダイバージェンス

ここからが本題です。

KLダイバージェンス(カルバック・ライブラー発散)は、
「ある分布Pが、別の分布Qからどれだけ離れているか」を測る指標です。

数式:

D_{KL}(P \parallel Q) = \sum_{i} p(x_i) \log \frac{p(x_i)}{q(x_i)}

(ディーケーエル、ピーとキューの比較、は 各事象の確率に、ログの比をかけて足す)

はい、出ました!

logの中に割り算がありますね。

ここで登場するこの\frac{p(x)}{q(x)}という比率こそが、KLダイバージェンスの核となる部分なんです。


4. なぜ割るの?その意味は?

この割り算\frac{p(x)}{q(x)} は、

「本来(真の分布)はPなのに、もしQと思い込んでいたら、どれだけズレてる?」

という “錯覚の比率” を表しています。

この比率が:

  • 1なら → PとQが一致(log(1) = 0 → ダイバージェンスも0)
  • 大きいなら → QはPを過小評価している
  • 小さいなら → QはPを過大評価している

つまり、「本当の確率と、想定の確率のズレを“比率”で評価」しているのがこの割り算なんです!


5. logがかかっている理由は?

ここで「logがあるのはなぜ?」という疑問も湧きますね。

logの役割は大きく2つあります。

① スケーリングを抑える(成長率にする)

logをとると、掛け算 → 足し算に変換できる性質がありましたね。

→ たくさんの比率を累積したとき、掛け算の連鎖が扱いやすくなります。

② 情報量の考え方と合う

前述のエントロピーと同じで、logを使うと「どれだけ驚くか?」という尺度に変換できます。

  • log(1) = 0 → 予想通り → 情報ゼロ
  • log(1/10) ≈ -1 → 意外
  • log(1/1000) ≈ -3 → すごく意外!

6. 図で理解しよう!

【図1:KLダイバージェンスの視覚化】

  • 横軸:x(事象)
  • 縦軸:確率
  • 緑:P(x)(真の分布)
  • 青:Q(x)(想定の分布)
  • それぞれの棒グラフの差
  • p(x)/q(x) が大きいほど、驚きが強くなる領域としてハイライト!

7. 応用:KLダイバージェンスの使い道

分野使い方
機械学習(分類)モデル出力の分布と正解ラベルの分布の違いを測る
自然言語処理文書や単語の出現パターンの違いを比較
強化学習方策のアップデートにおける“ズレ”の抑制
ベイズ推定事前分布と事後分布の違いを評価

8. 割り算が表すのは「情報のずれ」

ここまででわかってきたのは、

割り算は、“基準とのずれ”や“別の視点との比較”の道具である

ということ。

KLダイバージェンスでは、「想定と現実のズレ」を比率で測るという発想がそのまま数式になっているのです。


まとめ

  • エントロピー:情報の平均的な驚きを測る
  • KLダイバージェンス:想定と現実の確率のズレを「比率(割り算)」で評価
  • 割り算 × log → 「どれだけ違うか」を情報量という形で数値化
  • 割り算は、「違いをスケールで示す」最も直感的な道具!

次回予告:「割り算の応用編:ベイズ統計と事後確率の構造を解剖!」

次回は、統計学の応用編として「ベイズ統計」を取り上げます。

  • ベイズの定理に出てくる条件付き確率
  • 割り算で「更新」される信頼の度合い
  • 「事前情報」+「観測データ」=「事後確率」

このあたりの仕組みを、図とともにじっくり紐解いていきます!

どうぞお楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。