ゆるゆる独学

ゆるゆる独学

ゆるゆると気まぐれに更新していきます

医学物理士認定試験問題研究①平均情報量

f:id:Yuru-yuru:20200725031519j:plain

こんにちは!

今回は医学物理士認定試験で出題される内容から私が独学で勉強したことをいくつかまとめていきたいと思います。

ただテーマとなる内容は私が気になった内容にかなり偏ります。

全科目を均等に網羅するものでは無いので、ご了承ください!

医学物理士認定試験では診療放射線技師国家試験より専門的な内容も増えるので誤りを含む可能性も高くなると考えられます。

誤りに気づいた方は遠慮せずご指摘ください。

では早速、今回は「平均情報量」について書いていきます。

平均情報量は情報理論に含まれる内容であり、馴染みが無い方も多いかと思います。

まずは基本となる情報量の概念から確認していきます。


情報量とは

情報量は以下のように定義されています。

確率pで生起する事象が起きたことを知ったときに、得られる情報量I(p)

 I(p) = -\log p

と表す。

全く情報理論に触れたことが無い方は「はて、何のことやら?」という状態かと思います。

この式を眺めてみると、情報量はその事象が起こる確率pが小さいほど大きくなる値であることがわかります。

これがどういったことを表しているのか、少し考えてみましょう。

例として、サイコロを投げて出た目を当てるゲームを扱います。

まず出た目に関して全く情報がない場合、すべての事象(1~6の目が出る)に対して成り立つ情報しかないため、確率は1と考えます。

f:id:Yuru-yuru:20200724184034j:plain:w150

よって得られる情報量は

 I(1) = -\log 1 = 0

となります。

情報が全くないわけですから、情報量は0。当たり前ですね笑

では、次に出た目が奇数であるという情報を得た場合を考えます。

f:id:Yuru-yuru:20200724184156j:plain:w150

出た目は1、3、5の3通りに絞られますから確率はp = {\frac{3}{6}} = {\frac{1}{2}}となり、その情報量は

 I({\frac{1}{2}}) = -\log{\frac{1}{2}} = \log 2

となります。

先ほどよりも情報量が大きくなりましたね。

では最後に出た目が奇数かつ3以下である場合を考えてみましょう。

f:id:Yuru-yuru:20200724184207j:plain:w150

このとき出た目は1と3の2通りに絞られますから、確率はp = {\frac{2}{6}} = {\frac{1}{3}}となり、その情報量は

 I({\frac{1}{3}}) = -\log{\frac{1}{3}} = \log 3

となります。

\log 3 > \log 2より、2つ目の場合より情報量が大きくなっています。

この例から情報量は起きた事象の確率が小さいほど大きくなるものであることが分かります。

これはその事象の起きる確率が小さいほど、その事象が起きたという情報の価値が大きくなるという風に解釈することができます。

今の例で言うと、より選択肢(サイコロの目)を絞れる方が情報量が多いということですね。

また、この情報量は画像などのデータ量としても考えることができます。

画像に限らず、コンピューターで扱われるデータは全て0か1の2つの数字の組合せで表現され、最小単位はbitです。

例えば画像の諧調数が256のとき、1画素当たりのデータ量は256 = 2 ^8より、8bitになります。

(2進数の表現については省略します。)

画素値は256通りあり、そのうちの1つが得られたわけですから、その情報量I(p)は、

 I({\frac{1}{2 ^8}}) = - \log_2 {\frac{1}{2 ^8}} = 8[bit]

となり、データ量と一致します。

先ほどの例では対数の底を特に指定していませんでしたが、情報量をbit単位で表す場合、底は2とする必要があります。

このため、基本的に底は2が用いられます。

これで情報量の概念をだいたい理解できたのではないでしょうか。

では、続いて平均情報量(情報エントロピーについてまとめていきます。


平均情報量とは

平均情報量(情報エントロピーは以下のように定義されています。

M個の互いに排反な事象a_1, a_2, \cdots , a_Mが起こる確率をp_1, p_2, \cdots , p_Mとする(ただし、p_1 + p_2 + \cdots + p_M = 1)。

このとき、得られる平均情報量H(p_i)は、

 H(p_i) = - \sum_{i=0} ^M p_i \log{p_i}

と表せる。

先程と同様に式を見てみると、ある事象が起きた時に得られる情報量にその事象が起きる確率をかけたものを足し合わせたものになっています。

これは何を示すのでしょうか?

得られる情報量にその事象が起きる確率がかけられているので、平均情報量は名前の通り、平均してどのぐらいの情報量が得られるのかを示していると考えることができます。

統計学でいう期待値と同じですね。

期待値があまりピンとこないという方は少し調べてみてください。

とりあえず平均情報量についてはこの程度で大丈夫でしょう。

では早速、問題を解いてみます!


問題演習①

問題は2018年度問題71です。


問題71 排反する2つの事象の生起確率がそれぞれ0.4と0.6であるとき、2つの事象のエントロピー[bit]はどれか。

ただし、\log_2 0.4 = -1.3および\log_2 0.6 = -0.7とする。

  a.-2.6

  b.-0.94

  c.0.10

  d.0.94

  e.2.6

(2018年度医学物理士認定試験多肢選択式物理工学系より引用)


ぜひ答えを見ずに一度解いてみてください。



解けたでしょうか?

解答としては以下のようになります。

2つの事象の生起確率をそれぞれp_1p_2とすると、エントロピー(平均情報量)は、

 H = -\sum_{i=1} ^n p_i \log_2 p_i

   =-(p_1 \log_2 p_1 + p_2 \log_2 p_2)

であり、p_1 = 0.4p_2 = 0.6を代入すると、

 H = -(0.4 \times \log_2 0.4 + 0.6 \times \log_2 0.6)

 =-0.4 \times (-1.3) -0.6 \times (-0.7)

 = 0.94

と求められます。

よって解答はdです!

結構簡単に解けたのではないでしょうか?

では次にこの問題を解いてみましょう。


問題演習②

問題は2014年度問題61です。


問題61 4つの文字A、B、C、Dからなるデータの平均情報量がもっと多いのはどれか。

ただし、P_AP_BP_CP_Dはそれぞれの文字の出現確率とする。

f:id:Yuru-yuru:20200725020046j:plain:w300

(2014年度医学物理士認定試験多肢選択式物理工学系より引用)

どうでしょうか?

事前知識がなく、このブログしか読んでいない人はほぼほぼ解けないかと思います。

おそらく立式して計算していく途中で、

あれ?計算できなくない??

となったのではないでしょうか。

では、実際に計算してみましょう。

まずはaからやってみます。

 H_1 = -(P_A \log_2 P_A + P_B \log_2 P_B + P_C \log_2 P_C + P_D \log_2 P_D

P_A = P_B = P_C = P_D = 0.25より、

 H_1 = -4 \times 0.25 \times \log_2 (0.25)

   =- \log_2 ({\frac{1}{4}})

   =2

aの選択肢は問題なく計算できました。

では続いてbを計算してみましょう。

 H_2 = -(0.35 \times \log_2 (0.35) + 0.25 \times \log_2 (0.25) + 0.25 \times \log_2 (0.25) + 0.15 \times \log_2 (0.15)

おそらく皆さんお気づきかと思いますが、先ほど計算がうまくいったのは確率が2の累乗だったからです。

確率が2の累乗でない場合、電卓なしに対数の計算をすることはできません。

これでは平均情報量の比較ができません。

しかし、実はこの問題はある定理を知っているだけで秒殺できる問題です。

その定理について理解していきましょう。


平均情報量に関する定理

平均情報量について、以下のような定理が成り立ちます。

事象の数をM、それぞれの確率をp_1p_2、…、p_Mとするとき、

p_1 = p_2 = \cdots = p_M = {\frac{1}{M}}H(X)は最大となり、その値は\log_2 Mである。

この定理はもちろんちゃんと証明することができますが、とりあえずは感覚的に理解しましょう。

初めの方で説明したように情報量は確率が小さい事象が起きたときに大きくなります。

しかし、起きる確率が小さいわけですから、その事象が起きたという情報が得られる可能性も小さくなります。

この両方のバランスが取れていないと平均情報量は最大になりません。

それが全ての事象の確率が等しいときというわけです。

また、平均情報量は情報エントロピーとも呼ばれます。

エントロピーは主に熱力学や統計力学の分野で登場する概念であり、大雑把に言うと乱雑さばらつきを示すものです。

全ての事象の確率が等しい場合、次に起こる事象には全く傾向がなく予測がしにくいという風に解釈できます。

こう考えると、すべての事象の確率が等しい時にエントロピーが最大になるという考え方の方がしっくりきやすいかもしれませんね。

こうはいったものの、数式を用いてはっきりさせたいという方のために、一応定理の証明*1も書いてみました。

なかなかややこしいですが、気になる方は読んでみてください。


さて、この定理を用いることで先程の問題がすぐに解けてしまいます!

では、解答にいきましょう。

定理より、P_A = P_B = P_C =P_Dとなるとき平均情報量は最大となるため、

 P_A = P_B = P_C = P_D = 0.25

となるaが解答です。

まったく計算せずに解くことができました笑


まとめ

今回の平均情報量の定理のように、それを知らないだけで簡単な問題が超難問になってしまうという場合があります。

特に独学で勉強していく場合は、すべての分野を一通り学習するというのはなかなか難しいのでこういったことが起こりがちです。

勉強を進めていくうえでわからない言葉や概念が出てきたときは、問題を解くために必要な情報だけを調べるのではなく、もう少し突っ込んで勉強してみるのも良いかもしれませんね。

この医学物理士認定試験問題研究は今後もちょこちょこ更新していく予定なので、ぜひお楽しみに!

ではまた!



<補足>

*1:

(証明)

ラグランジュの未定乗数法を用いる。

目的関数:

H(X) = -\sum_{i=1} ^M p_i \log_2 p_i = -(p_1 \log_2 p_1 + p_2 \log_2 p_2 + \cdots + p_M \log_2 p_M)

束縛関数:

p_1 + p_2 + \cdots + p_M -1 = 0

最大化条件:

{\frac{\partial}{\partial p_i}}\{H(X) - \lambda(p_1 + \cdots + p_M -1)\} = 0

たとえば、i=1のとき、

 {\frac{\partial}{\partial p_1}}\{-(p_1 \log_2 p_1 + \cdots + p_M \log_2 p_M) - \lambda(p_1 + \cdots + p_M -1)\} = 0

 -(\log_2 p_1 +1) - \lambda = 0

 \lambda = -\log_2 p_1 - 1

これはi = 1, 2, \cdots , Mで成り立つため、

 -\log_2 p_1 - 1 = -\log_2 p_2 - 1 = \cdots = -\log_2 p_M - 1 = \lambda

 \log_2 p_1 = \log_2 p_2 = \cdots = \log_2 p_M

 p_1 = p_2 = \cdots = p_M

となる。p_1 = p_2 = \cdots = p_Mのとき、各確率は{\frac{1}{M}}であるため、定理は成り立つ。