情報理論ハンズオンセンター

情報理論の基礎(情報量・エントロピー・符号化など)を視覚的・体験的に学ぶ

エントロピー

「情報量」のページでは、ある事象 \(x\) が発生する確率を \(P(x)\) としたとき、その事象が起こったと知ることで得られる情報、すなわち自己情報量 \(I(x)\) が \(I(x) = -\log_2 P(x)\) ビットで与えられることを見ました。ここでは、情報源全体が持つ平均的な情報量であるエントロピー (Entropy) について学びます。 情報源を確率変数 \(X\) とし、この情報源から発生しうるシンボル(事象)を \(x_1, x_2, \ldots, x_n\)、それぞれの出現確率を \(P(x_1), P(x_2), \ldots, P(x_n)\) とします。情報源 \(X\) のエントロピー \(H(X)\) は、各シンボルの自己情報量 \(I(x_i)\) の期待値(平均値)として定義されます。ここで \(E[\cdot]\) は期待値を意味し、\(I(x_i) = -\log_2 P(x_i)\) です。 \[ H(X) = E[I(X)] = \sum_{i=1}^{n} P(x_i) I(x_i) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \] エントロピーの単位は通常ビット/シンボル (bits per symbol) であり、これは情報源から1つのシンボルを取り出した際に期待される平均情報量を示します。

このエントロピーは、情報源符号化定理(シャノンの第一定理)と深く関わっています。この定理によると、情報源のシンボルを符号語に効率的に変換する際、プレフィックス符号(即座に復号可能な符号)を使った場合の平均符号長 \(L\) は、エントロピー \(H(X)\) に対して次の範囲に収まります: \[ H(X) \le L < H(X) + 1 \] つまり、エントロピーは符号化の効率性を測る基準となり、どれだけデータを圧縮できるかの理論的な限界を教えてくれます。エントロピーが小さいほど情報源に偏りがあり、より効率的な符号化(データ圧縮)が可能になります。

このページでは、入力されたテキストデータを分析し、各文字の出現確率 \(P(x_i)\) を求め、上記のエントロピー \(H(X)\) を計算します。エントロピーは、その情報源が持つ「不確かさ」や「予測のしにくさ」の度合いを表し、効率的な符号化(データ圧縮など)を行う上での理論的な限界を示します。エントロピーが低いほど、情報に偏りがあり予測しやすいため、より圧縮しやすいことを意味します。様々なテキストを分析して、確率分布とエントロピーの関係を探求しましょう。

1. テキスト入力

2. 解析実行

ヒント:

  • アルファベット(a-z, A-Z)、ひらがな、カタカナ、漢字の出現頻度をカウントします(英字は大文字・小文字を区別しません)。
  • それ以外の記号、数字、空白、改行などは無視されます。
  • グラフには出現頻度上位15文字が表示されます。
  • エントロピーの値が小さいほど、情報が偏っており、圧縮しやすいことを意味します。

3. 出現頻度と確率分布

ここに各文字の出現回数、確率、自己情報量が表示されます。

4. エントロピーと解説

ここにエントロピーの計算結果と解説が表示されます。