情報理論の基礎(情報量・エントロピー・符号化など)を視覚的・体験的に学ぶ
私たちの身の回りには情報があふれていますね。コンピュータは、これらの情報を「0」と「1」だけを使って処理したり、他のコンピュータとやり取りしたりします。例えば、メールを送ったり、動画を見たりするとき、その内容はすべて「0」と「1」の長い列(ビット列)に変換されて伝えられています。この変換作業を符号化と呼びます。
ある出来事(事象) \(x\) が発生する確率を \(P(x)\) とするとき、その事象 \(x\) が実際に起こったと知ったときに得られる情報の量を自己情報量、または単に情報量と呼びます。この自己情報量 \(I(x)\) は、次のように定義されます: \[ I(x) = -\log_2 P(x) \] 単位はビット (bit) です。この式からわかるように、確率 \(P(x)\) が小さい(つまり、めったに起こらない珍しい)事象ほど、それが起きた時の驚きは大きく、自己情報量 \(I(x)\) は大きくなります。逆に、頻繁に起こる事象の情報量は小さくなります。
このページでは、この自己情報量の概念を具体例や符号木という図を通じて視覚的に体験します。個々の事象が持つ情報量と、それを伝えるのに必要なビット数の関係性、特に確率が \(1/2^N\) の形式で与えられる場合に、情報量と理想的な符号長がどのように一致するかを見ていきましょう。
なお、数式や確率での理解に抵抗のある方や、もっと「情報量」をイメージから理解したい方には、YouTube 動画 『話がつまらない人をバカにできる「シャノンの情報理論」【明日使えるインテリ悪口01】』(堀元見さん)がおすすめです。
ヒント: