シャノンのエントロピーとコルモゴロフ複雑性を新人エンジニア向けにやさしく比較解説

2025年4月12日 2025年4月12日山崎講師

山崎講師

こんにちは。ゆうせいです。

今回は、情報理論と計算理論の代表的な概念である「シャノンのエントロピー」と「コルモゴロフ複雑性」について、新人エンジニアの皆さんに向けてわかりやすく解説していきます。

この2つは一見似ているように感じるかもしれません。どちらも「情報の量」や「複雑さ」を測る考え方ですが、実は出発点も使い方も全く違うんです。

それでは、「似ているけど違う」この2つをしっかり区別しながら学んでいきましょう！

そもそも「情報量」って何だろう？

まず質問です。

「Aさんがサイコロを1回振った結果を知ったとき、どれくらい驚きますか？」

これ、情報理論では「驚きの大きさ＝情報量」として定義されます。予測しにくい結果ほど、情報量は大きくなるというわけです。

シャノンのエントロピーとは？

定義

シャノンのエントロピーは、確率分布に基づいて、その情報源の平均的な情報量を測る指標です。

数式で表すと：

H(X) = −Σ P(x) * log₂ P(x)
（Hはエントロピー、P(x)はxという結果の出現確率）

日本語で書くと：

H(X) = 各データxについて、「その確率×その情報量（logで表す）」を全部足し合わせたもの

例で理解しよう！

例1：公平なコイン

表と裏が同じ確率（50%）
H = −(0.5×log₂0.5 + 0.5×log₂0.5) = 1ビット

例2：表が90%、裏が10%

H = −(0.9×log₂0.9 + 0.1×log₂0.1) ≒ 0.47ビット

→ 偏りがあるほど予測しやすくなり、情報量は小さくなる

コルモゴロフ複雑性とは？

定義

あるデータ列を最も短いプログラムで出力するとき、そのプログラムの長さを、そのデータのコルモゴロフ複雑性とします。

数式で書くと：

K(x) = 最も短いプログラムpの長さ（|p|）、ただしpはxを出力する

日本語で書くと：

K(x) = 「xを生成できる最短の説明（プログラム）の長さ」

例で理解しよう！

例1：規則的な列「0101010101」

「01を5回繰り返す」と書ける → プログラムが短い
K(x)は小さい

例2：ランダムっぽい列「0110100111…」

規則が見つからない → そのまま書くしかない
K(x)は大きい

図で比べてみよう！

特徴	シャノンのエントロピー	コルモゴロフ複雑性
基準	確率分布	最短プログラムの長さ
扱う対象	情報源（ランダム変数）	個別のデータ列
目的	平均的な情報量を測る	データ自体の構造を測る
実用性	実際に計算できる	理論上のみ（非計算可能）
用途	通信、圧縮、暗号など	理論的な複雑性、機械学習理論

たとえるなら？

シャノンのエントロピーは、「ガチャの当たりやすさ」のようなもの。確率で平均の驚きを測っています。
コルモゴロフ複雑性は、「そのガチャの中身を一から再現する設計図」のようなもの。再現の手間が情報量です。

一緒に使うともっと強い！

実はこの2つは、情報圧縮や機械学習で補完的な役割を果たします。

例：情報圧縮

シャノンのエントロピー：理論上の限界（どれだけ圧縮できるか）
コルモゴロフ複雑性：実際にどこまで圧縮可能かの目安

実務エンジニアにとってのポイント

データの性質（ランダムか、規則的か）を理解する視点を与えてくれます。
圧縮率の評価、異常検知、モデル選択など、あらゆる場面でこの“情報の見方”が活きます。

今後の学習の指針

まずは次のようなテーマに進むと理解がさらに深まります：

情報理論の基本（シャノン符号化、通信路容量など）
計算理論（チューリングマシン、アルゴリズムの計算量）
MDL（最小記述長）原理：実務に近いコルモゴロフ的アプローチ
ベイズ推論と事前分布：情報と予測の関係を見る視点

情報を「どれだけ圧縮できるか」「どれだけ驚くか」という視点を持つと、AIやデータサイエンスの基礎が一段と面白くなってきます。

ぜひ、自分の使うアルゴリズムに対して「これは情報的にどういう意味を持つのか？」と問いかけてみてくださいね！

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

山崎講師代表取締役

セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します！
この記事に間違い等ありましたらぜひお知らせください。

シャノンのエントロピーとコルモゴロフ複雑性を新人エンジニア向けにやさしく比較解説

そもそも「情報量」って何だろう？

シャノンのエントロピーとは？

定義

日本語で書くと：

例で理解しよう！

例1：公平なコイン

例2：表が90%、裏が10%

コルモゴロフ複雑性とは？

定義

日本語で書くと：

例で理解しよう！

例1：規則的な列「0101010101」

例2：ランダムっぽい列「0110100111…」

図で比べてみよう！

たとえるなら？

一緒に使うともっと強い！

例：情報圧縮

実務エンジニアにとってのポイント

今後の学習の指針

セイ・コンサルティング・グループの新人エンジニア研修のメニューへのリンク

投稿者プロフィール

最新の投稿

ソロモノフ帰納とは？機械学習の原点を新人エンジニア向けにわかりやすく解説

Java開発が捗る！新人エンジニアにおすすめのEclipseショートカットキー＆コンテンツアシスト10選