ベイズ統計学について理解するうえで欠かせない五大要素について見てみます。
Table of Contents
ベイズ的な考え方
ベイズ的な考え方は、目の前で観察されている事象やデータを足掛かりにして推理していく、とも言えます。
- 今起きていることには、何らかの原因があるはず。だが、その原因が何なのかは分かっていない。
- とはいえ、すべての考えうる「原因候補」の有力度は等しくはなく、可能性の高い原因と、可能性の低い原因に分かれる。
データという推理材料を集めていって、「原因候補」にあたりをつけていく。ベイズ統計学の根底にある考え方は、そんなところでしょう。
ベイズ統計学の主要素
1.事前分布
主観に基づく第一歩。それが事前分布を決めることです。
なんのこっちゃというところでしょうが、事前分布を決めるというのは、言い換えるなら「結果を予想すること」です。
目の前に薬があった時に、それがどの程度効くのかを予想して「こんなものかな」と定めておくのが事前分布です。
「何もわからないなら、主観で構わないから結果を予想してみよう。」
そういった主観的な予想あるいは目算を行うという点が、ベイズ統計学が主観的な統計学と呼ばれる所以です。
とはいえただ予想するだけなら統計学でもなんでもなく、ただの勘になってしまいます。
この後に尤度と事後分布というものが出てきますが、三者間には重要なつながりがあり、式で表すなら「事前分布×尤度=事後分布」です。
この尤度というのは、実際に観察されたデータをもとに得られる情報なのですが、「勘で設定した事前分布を、観察されたデータをもとに得られた尤度で修正する」というのが上の式です。
予想して → 観察して → 予想を修正する。
それがベイズ的な思考の流れなんですね。
2.尤度
尤度とは、その字のごとく尤もらしさ(もっともらしさ)と表現されます。
ですが、尤もらしいってなんだよ?と思う人もいるでしょうから、「起こりやすさ」と確率っぽく捉えておいた方が理解しやすいです。
尤度関数というものが想定されていて、数式上は L(x) などと表現されます。
Lは、Likelihood の L です。
尤度関数は、英語では Likelihood function と呼ばれるからですね。英語の方が素直でわかりやすい。
で、L (x) はいったい何を表現しているかというと、確率分布を表している関数なんですね。
そもそもが「尤もらしさ」なんて日本語は身近ではありませんから、英語のとおり「Likelihood function」と覚えておいた方がいいかもしれません。
繰り返しますが「事前分布×尤度=事後分布」です。
この尤度(Likelihood)で、勘で設定した事前分布を修飾して、予想を軌道修正していきます。
3.事後分布
事後分布が、ベイズ統計学における「結論」になります。
「え?有意差ありとか、有意差なしとか、勝負あり!みたいな結論は出ないの?」と思うかもしれませんが、白黒はっきり、勝ち負けはっきり、とはならないんですね。
強いて言えば、「70%は白、30%は黒」とか「75%は勝ち、25%は負け」という結論なら、事後分布から導き出すことはできるでしょう。
毎日の天気予報や渋滞予測をイメージするといいかもしれませんね。
4.ベイズ更新
この「事前分布×尤度=事後分布」の式で言う、尤度による予想の補正というのが、ベイズ更新にあたります。
事前分布(個人の主観に基づく予想)を、尤度(観察された事実に基づく確率分布)で更新していくということですね。
これが、リアルタイムで情報が集まるビッグデータ時代に相性がいいとされる理由で、尤度の部分は日々集まるデータをもとに更新を頻繁に行えるわけです。リソースや技術があれば。
「動きながら考える」というのはビジネスやスポーツ含め様々な場面で聞かれる表現ですが、まさに日々のデータをもとに予想をどんどん更新していく、動きながら考える統計学がベイズ統計学とも言えるでしょう。
5.ベイズの定理
という一連の思考の流れを支えているのが、高校数学でも習う「ベイズの定理」です。
条件付き確率の数式のあれですね。
数式が出ると思考停止になってしまう人もいると思いますのであえて日本語だけで表現するならば、
「Bが起こったときのAの条件付き確率」=「Aが起こり、かつ、Bが起こる確率」÷「Bが起きる確率」ですね。
AとかBとかのままだとわかりにくいので、適当に何らかの事象を入れてみましょう。
A:東京で雨が降る
B:大阪で雨が降る
「大阪で雨が降ったときの、東京の降水確率」=「東京で雨が降り、かつ、大阪で雨が降る確率」÷「大阪で雨が降る確率」
もともとは、「大阪で雨が降る確率」×「大阪で雨が降ったときの、東京の降水確率」=「東京で雨が降り、かつ、大阪で雨が降る確率」という掛け算の方が思考の流れとしては自然です。
それを、「大阪で雨が降る確率」で両辺を割ってしまってもいいんじゃないか?という、非常に斬新なアイデアを定理にまで昇華したというベイズさんは偉大です。
まとめ
ベイズ統計学の根底には「勘で設定した事前分布を、観察されたデータをもとに得られた尤度で修正する」という姿勢があり、それは次の式に集約されています。
「事前分布×尤度=事後分布」
事前分布を決めるのが一苦労なので、そのためにも日々の勉学や経験を通じて勘を研ぎ澄ますことが大切です。