このページについて

このページでは、ベイズ統計学についてまとめます。ただのリンク集になるおそれもあります。管理人SUGIYAMA Shunsukeもベイズ統計学に少しかじったことがありますが、私のベイズについての学識はとても浅いです。浅いですが、浅いなりにベイズってこういうものみたいだよ、という考えを持っています。これを、とりあえずメモのように書き綴るページです。

目次

ベイズ統計学とは

ベイズの基本的発想

ベイズの基本的発想は、 ものごとの「原因の確率」を考える、です。いくつかこれから挙げる具体例を見てみましょう。

  • 例1:次の言い回しを認めることが出来ますか?
私は病気であるかないかどちらかであるが、症状を考えると、
私が病気である確率は0.7 (70%)である。

なんだか喉の奥にものがつまってような気持ちの悪い文章、と思えるかもしれませんが、ベイズ風に考えるとは、こういうことです。

  • 例2:昔、早稲田の入試で出た問題らしい(何かんがえてんだろう)。これを解くことが出来ますか?
5回に1回の割合で帽子を忘れるくせのあるK君が、正月に A、B、C 3軒を順に
年始回りをして家に帰ったとき、帽子を忘れてきたことに気がついた。
2軒目の家B に忘れてきた確率を求めよ。
このページより引用

答えは、引用先にあります。

  • 例3:普段から妻を虐待していた男が、妻殺しの容疑で捕まった。無罪を主張する容疑者の弁護士の、次のような弁護は正しいと思いますか?
統計によれば、妻を虐待する男のうち、妻を殺すところまで行くのは
わずか0.1%であることが知られています。虐待していたから当然殺
したに決まってる、というのは陪審員の先入観だということを申し上げたいのです。
この本のpp.40からの引用

(答え)

この弁護に納得してはだめだ。この弁護に納得するとしたら、0.1%という極めて小さい確率と、この夫が妻を殺した確率という二つを、関連付けてしまうからだろう。

この弁護に納得してしまったとして、この男は殺してないと思ってしまったとしよう。そうすると、妻は夫以外の誰かに殺されたことになる。ここで私はあなたにこのように言いたい。「統計によれば、人間のうち、女性を殺すところまで行くのは、わずか0.00001%*1に過ぎない」と。

なんといっても、世の中の大多数の女性は殺されないのだ。そして、このことは、たとえ虐待関係が夫婦間で存在したとしても、成り立つのだ。だからこそ0.1というとっても小さい数字が出てくるのだ。

ほとんどの女性は、「殺される」か「殺されないか」でいうと、「殺されない」。にも関わらず、「女性が殺される」という、非常に例外的なことが起きた。その原因として、①いつも虐待していた夫が殺した、という説明と、②ほかの誰かが殺した、という説明の、どちらか確率が高いか?ということが問題なのである。ここまでくると、①か②かでいうと、①である確率のほうが高そうだ、ということが分かってくる。

ベイズ統計学風に考える発想としては、こんな感じです。なんだか、不確実性のある対偶をとる、みたいな考え方ですね。

ベイズ統計学と古典的統計学の違い

具体的にベイズ統計学について見る前に、ベイズのイメージ、基本的な考え方、スタンスについて、もう少し見てみましょう。

管理人の理解によると、ベイズと古典的統計学の違いは以下の表にようになります。

データパラメータ
ベイズ統計学所与と考える確率変数とみなす
古典的統計学確率変数とみなす神のみぞ知るひとつの値がある

中妻先生のシラバスに、簡潔にベイズ統計学について記されています。中妻先生のシラバス・上記の表にあるとおり、ベイズ統計学ではパラメータを確率変数とみなします。他方、古典的統計学では、これをある一つの値であると考えます。

どちらか正しいかは、哲学論議になります。古典的統計学では、パラメータについて「神のみぞ知るひとつの値がある」と考えますが、このように仮定することの妥当性は検定できません。「本当に、そんな一つの真の値があるの?」というツッコミに対して答えることはできません。他方、ベイズ統計学では、「パラメータは確率変数」と考えるわけですが、それでは、「神様がセットしたある一つの値はないのかよ、おまえはロマンがねぇな」というツッコミをされたら、ベイジアンは何も答えられないでしょう。

データというのは、どんどん新しいものが得られる。ベイズ統計学では、新しく追加された情報を最大限に生かした刹那的な最善の意思決定を常に行い続けることが可能となります。逆に言えば、それ以上は望まないということです。つまりベイズでは、真理の追究ははじめからあきらめてしまっている、とも言えるでしょう。この点で、ベイズが嫌がれる理由となるかもしれません。

学問とは「真理を追究することである」と定義するならば、ベイズ統計学が、古典的造形学をやっている人から嫌がられるのは当然かもしれません(しかし、ベイズを本当に認めない、というのであれば、AICやSBICなどのモデル選択基準を使うことはできなくなる)。しかし、管理人はベイズ的な発想に抵抗を感じません。なぜならば、ベイズ的な発想を、人間は常にしているからです。どういうことかというと、人間は、常に自分の経験から、さまざまな推論をしますが、その推論は、経験をつむごとに変化する、ということです。これはベイズ的な発想にほかなりません。

たとえば、こんな女について考えましょう。この女は、自分という女が、女としてどれだけ魅力の持っているか、ということについて推論をするとします。仮に、「どれだけの魅力か」を「魅力度」と呼び、1~100までの間の数字で表現できることにしましょう。そうすると、「魅力度」に関する推論は、最初は根拠のない自信を持っていて、95くらいはあるんじゃないか、と推論しているかもしれません。しかし、あるとき、あまりいけてない男にふられてしまい、ひょっとして、自分は40くらいしかないんじゃないか、と推論を変えるかもしれません。ところがその後、けっこういい男に告白され、自分の魅力度はひょっとして70くらいなんじゃないか、と推論するかもしれません。

このように、人間は自分の経験からさまざまな推論を日常的行っています。そして、その推論は日々、刻一刻と変化します。刻一刻と変化するのは、日々得られる新しい追加情報を最大限いかし、最善の意思決定を行おうと対応した結果なのです。ところが、これはベイズ的な発想にほかなりません。

以上を踏まえると、ベイズは、小標本における、最善の意思決定を行うにはどうしたらよいか、ということを考える学問、といってよさそうです。人間の寿命はたかだか80年くらいです。人類は所詮は有限時間の中でしか生きられない存在である限り、最初から大標本理論を考えず、ベイジアンになるのは一つの手だと思います。漸近理論を用いて、大標本特性に注目しがちな古典的な計量経済学とは、まったく考え方が異なると思います。

さて、上の女の例をもういちど考えます。ここで、「魅力度」というパラメータは、恋愛経験をともに変化していますから、これは確率変数と考えているわけです。ちなみに、古典的統計学の立場では、「神様は、この女に、θというある一つの魅力度を設定した。しかし、われわれはこのθを知ることが出来ない。そこで、神様が人間に見せてくださる一片の現実データをつかって、このθを推定しよう」と考えます。ベイズ統計学にもどって、ベイズ的に「魅力度」という確率変数を推論するためには、一番最初の「自分の魅力度はこれくらい」というところを設定しないといけません。これは、ベイズ統計学で事前分布の特定という作業にあたります。例では、「根拠のない自信を持っていて、95くらい」と書きました。本当に根拠がないですが、これは、きわめて主観的なものになるわけです。この点が、ベイズが非難されるポイントになります。すなわち、この事前分布を主観的に決めるわけですが、どう決めるかによって、その後の推論が変わってしまう。主観によって分析結果が影響されてしまう。これがベイズが非難される理由になります。

疑問

ここで疑問があります。事前分布を、どんな風に決めたとしても、データ数を増やせば、パラメータの推定は、古典的統計学の考え方で推定されて得られる値と、一致性をもつんでしょうか?誰か教えてください。

横レス

これ、別の場所で揉めてたんですが(笑)、「例2」はあまり良くない例だと思います。これは「奇怪な入試問題」と言う事で有名なそうなんですが、「ベイズ統計学」的な解釈だと逆におかしな問題なんですね。と言うか、個人的な意見では「悪問以外の何物でもない」と思います。
この問題の解法のツボですと、「幾何分布を生成して」解を求める、ってな手法になってるんですが、正直落とし穴があると思う。何故なら、「今から3箇所回る」んだったら、「まだ各所を回ってない」状態なんで、幾何分布と言うモデル選択に理はあるんですが、「既に帽子を忘れた」状況ですと、その「予測の為の分布」をそのまま使っていいのだろうか、と言う疑問が出てくるんです。「既に帽子を忘れた」以上これは論理的に成り立ちませんし、また、「逆確率推定」と言う文脈でもかなりおかしな発想なんですね。
もう一つの問題としては、これを「一般化して」考えてみます。N箇所をまわってどっかで帽子を忘れた、とする。そうすると、この問題の解法が指し示すのは、任意のN箇所を回った場合、「常に帽子を忘れる確率が高い場所は必ず最初に立ち寄った場所だ」と言うちょっと直感的に首を捻らざるを得ない解になってしまう、って事なんです。つまり、相当おかしな事を言ってるんですよ(笑)。
例えば、次の例を考えてみると分かり易いんですが、仮りにA→B→Cと回ったときに、Bに着いた時、Aで帽子を忘れたかどうか確認する。また、Cに移動した時Bに帽子をわすれたかどうか確認する。そうすると、各所B、Cで「1/5の確率で帽子を忘れる」と言う性質が変化するのか?と言う話になります。「始点」で「これからA→B→Cの三箇所を回る」事を想定する場合、各所での「帽子を"忘れる"確率」を幾何分布で考えるのは悪くない。ただし、「ある地点を経過した後で」同様の確率分布を考えてもいいのか、と言うとこれはヘンでしょう。仮りに、先ほどの前提で、Bで「あ!Aに帽子を忘れちゃった!!!」と発覚した場合、これは「1/5の確率で帽子を忘れた」のではなくって、事象が確定した以上単に確率は「1」にならざるを得ないんですよ。同様の論法だと、3箇所回ってから、「家に帰ったとき、帽子を忘れてきたことに気がついた」のだったら、既に確定した事象相手なので、「帽子を忘れる確率が1/5」と言う前提を強調するのはおかしくって、単に確定事象に関しては「1」なのです。その辺り考えると、この問題の解の作成者には「怪しげなロジック」がありますね。
まあ、いずれにせよ、「ベイズ統計学」を説明するにはあまりにもマズい例なんじゃないかな、とは思います。

>「神様がセットしたある一つの値はないのかよ、おまえはロマンがねぇな」というツッコミをされたら、ベイジアンは何も答えられないでしょう。

これはオーソドックスな「ベイジアン的解釈」では違うそうです。
ベイズ統計学でも「神様がセットしたある一つの値はある」と考えるそうです。
ただし、それに対峙する「こっち側の(=人間側の)気持ち」が「確率変数」として表現されるそうです。それが「信念(=Belief、主観確率)」って意味ですよね。
神様はふらつかないけど、「事象を観察する人間側」の方の気持ちがふらつく、と言うのがベイジアン的には正しい解釈だそうです。
(もっとも赤池先生の書いたモノを読む限り、それとはまた違った解釈もある、とは言えそうですけれども)

>事前分布を、どんな風に決めたとしても、データ数を増やせば、パラメータの推定は、古典的統計学の考え方で推定されて得られる値と、一致性をもつんでしょうか?誰か教えてください。

必ずしも一致しないそうですよ。
原理的には、「理論体系が違うんで」別に同じである必要性もないでしょうしね。
僕も渡辺先生の本も読みましたし、大昔和訳が出てたリンドレイの「ベイズ統計学入門」の本を図書館から借りてきて読んだ事ありますが、どっちかと言うとニュアンスとしては、「一致性を持つのを強調する」のは、「頻度論者を諭す」なり、「頻度主義的な教育を受けてきた人達を諭す」為に便法としてやってる、って感じを受けました。「敢えて一致する例を」取り上げてるような気がします。
実際、本来のベイズ統計的な枠組で言うと、「どんなトンでもない尤度」を持ってきて、「どんなトンでもない事前分布」を持ってきて分析しようと、誰にも何を責められる言われは無いでしょうしね(笑)。計算さえできれば、って事ですが。原則的にはそれが「主観確率の」枠組でしょうし。
結局、「ある仮説に於ける主観的な仮説の枠組」が有効だったのか、有効じゃなかったのか、と言うのは、それこそ単に「汎化性能がある」かどうかだけ、でしょうから、ぶっちゃけ、それは「ベイズの範疇じゃない」って言ってしまえば言ってしまえるような気もします。それは別の枠組での「実験」でしか結果は出ないんじゃなかろうか、と。そんな事を個人的には考えています。

横レスへの横レス

帽子問題(例2)に関して、

>この問題の解の作成者には「怪しげなロジック」がありますね。

と書かれていますが、「良い問題」かどうかはともかくとして、ベイズの定理のロジックがよく分かっていれば、どこにもおかしい点や怪しげな点はないと思います:

>「今から3箇所回る」んだったら、「まだ各所を回ってない」状態なんで、幾何分布と言うモデル選択に理はあるんですが、「既に帽子を忘れた」状況ですと、その「予測の為の分布」をそのまま使っていいのだろうか、と言う疑問が出てくるんです。

これは、条件付確率と、条件なし確率をごっちゃにしています。「既に帽子を忘れた」(ことが判った)状態で確率を考えるなら、それは条件付確率で、そのような条件付確率を求める公式が「ベイズの定理」です。その式の中で、「事前確率」をあてはめる部分があります。その部分は、まさに「事前」確率であって、何も情報がない状態での確率(たとえ時間的に事後であっても帽子を忘れたかどうかが不明なら同じ)、すなわち「まだ各所を回ってない」状態での確率(に一致する確率)をそこに代入する必要があります。
無条件確率(事前確率)には「予測の為の分布」という意味ももちろんありますが、その値が「既に帽子を忘れた」(ことが判った)状況での確率(条件付確率!)の計算の中で、「そのまま」必要なのです。使っていいも何も、数学的事実として使わ「なければならない」のです(それが「ベイズの定理」)。

既に(忘れたという)情報があるのだから、モデル選択に変更があるべきだという論理なのでしょうが、情報を使ってしまったら「事前」分布になりません。事前の「幾何分布」というモデルが、ベイズの定理によって、情報の下での新しい分布に変わる(だからたとえばBに忘れた確率も幾何分布による値とは変わる)わけです。まさに、情報によってモデルを変更しているわけです。その計算の中に元の幾何分布が出てくるという話と、直感的に「もう幾何分布じゃなくなっているはず」という話は矛盾しません。
(忘れたことが判ったあとはモデルが変わるといっても、もともとは幾何分布だったことの影響は残るはずで、そのことを具体的に述べているのがベイズの定理です。「もともとの分布」の影響も受ける以上、それが計算の中に使われるのはむしろ当然!)

>「常に帽子を忘れる確率が高い場所は必ず最初に立ち寄った場所だ」と言うちょっと直感的に首を捻らざるを得ない解になってしまう、って事なんです。つまり、相当おかしな事を言ってるんですよ(笑)。

そのことが直感に反するのは、「常に1/5の確率で帽子を忘れる」という問題の設定が、「実際問題では」不自然だからにすぎません。たとえばくじびきであれば、当たりが一本しかなく、先の人が当たりをひいたらその後ではもう当たらないとしても、最初に引くのとあとから引くのでは当たる確率は同じです。しかしくじびきの場合はくじが減りますが、この問題では、模式化すると「各家で5面体のサイコロを振り、最初に1が出た家に忘れる」という試行に対応し、まさしく後ほど“不利”になるようにできています。
この設定の場合、事前確率(出発前の予測)においても、事後確率(帰宅後に帽子を忘れたことが判った後の条件付確率)においても、いずれにおいても「最初に立ち寄った家ほど帽子を忘れる(忘れた)確率が高くなり」ますが、「そういう設定」なので仕方ありません。
(なお、この問題で「事前」と「事後」の本質的な差は、「どこにも忘れない」確率が、(5/4)^Nだけあるか、それが0になったかの違いだけです)

>「ある地点を経過した後で」同様の確率分布を考えてもいいのか、と言うとこれはヘンでしょう。仮りに、先ほどの前提で、Bで「あ!Aに帽子を忘れちゃった!!!」と発覚した場合、これは「1/5の確率で帽子を忘れた」のではなくって、事象が確定した以上単に確率は「1」にならざるを得ないんですよ。

B時点で帽子を忘れたかどうか「確認」してしまうと、その情報データのもとでの条件付確率を考えることになります。それが「事前確率」と異なる(帰宅後に「どこかに」忘れたことが発覚した場合の条件付確率とも、もちろん異なる)のは当然で、この場合「1」なのは、「B時点で帽子を忘れたと判った」という条件のもとでの条件付確率です。でもそれが何か? 問題になっている条件付確率とは何の関係もありません。
この例(B時点で、すでに帽子を忘れたことが発覚したという場合)にしても、「その情報のもとでAに忘れた(あるいは「どこかに」忘れた)確率」をベイズの定理で求めるなら、やはり事前確率(1/5)を「利用」することは変わりません。この場合の式は (1/5)*1/((1/5)*1+(4/5)*0) となって、値は確かに「1」です。(この式で、(1/5)*1は「Aに忘れる(事前)確率」×「Aに忘れたという条件のもとで、B時点で帽子を忘れたことが発覚する条件付確率」、(4/5)*0は「Aに忘れない(事前)確率」×「Aに忘れなかったという条件のもとで、B時点で帽子を忘れたことが発覚する条件付確率」です。)

>同様の論法だと、3箇所回ってから、「家に帰ったとき、帽子を忘れてきたことに気がついた」のだったら、既に確定した事象相手なので、「帽子を忘れる確率が1/5」と言う前提を強調するのはおかしくって、単に確定事象に関しては「1」なのです。

「帽子を忘れる確率が1/5」と言う前提は「事前確率」の設定であり、「単に確定事象に関しては1」というのは、それ(「確定事象」と呼んでいるその事象)が確定事象になったという条件のもとでの条件付確率です。
結局、「事前確率」(それは事後確率の計算の中でも数学的に必要)と、さまざまの「条件付確率」(何らかの「情報」が得られた後でのさまざまの事後確率)を混同してしまっています。(それなりの条件の下でなら、どんな事象の確率だって1になります)
あるいは、ベイズの公式の中の、事前確率と尤度を混同していると言えるかもしれません。高校生向けの解答では省略されますが、(1/5)とか(4/5)*(1/5)とか(4/5)^2*(1/5)とか(4/5)^3とかには、それぞれ1,1,1,0が掛かります。この「1」は、「AとかBとかに忘れたという条件の下で、「どこかに」忘れる確率」なので、それはまさしく1なわけです。

なお、(情報がないにもかかわらず)「実際には確定している(はず)だから確率は1か0かどちらか以外にない」というのは、非ベイズ的な発想です。これに対し、確定事象であっても具体的にどう確定しているのかの情報がなく、推論主体にとって不明なことならば、推論主体の“確信度”として確率を考えてよいというのがベイズ派の考え方で、そのとき、情報に応じて(ベイズの定理によって)条件付確率を定めることができます。ただその計算には無情報状態での確率(事前確率)がどうしても必要で、帽子の問題ではそれを(不自然な設定とはいえ)ちゃんと設定してあるので、入試“問題”としては疑問の余地はありません。しかし実際問題では、事前確率を十分な客観的根拠をもって設定できない場合がほとんどで、この点がベイズ統計学の弱点なわけです。

横レスへの横レスへの横レス

元々問題文には、

「2軒目の家B に忘れてきた確率を求めよ。」

と記述されています。実はここで問われているのは「忘れてきた確率」と言うよりは「忘れた場所の確率」を訊いているのです。
従って、本来、事前確率で「1/5」を論じるのはナンセンスで、実は「1/4」であると思えます。(元々、幾何分布かどうか、と言うのはむしろ尤度の方だと思います)

>条件付確率と、条件なし確率をごっちゃにしています。
>それが「ベイズの定理」

いや、「ベイズの定理」の利用法はともかくとして、では事前確率が「幾何分布である必然性」も実は無いんですね。つまり、「色々考えられる可能性の」一つでしかない。言わばそこが「条件付き確率」なのです。(と言うか、それは「モデル選択」の問題でしょう) 「ある解答が必ず正しい」と言うのはベイズ統計的にはマズいでしょう。原理的には客観性なんか存在しないのですから。(問題文から「幾何分布にしなければならない」条件なんて読み取れますか?かなり恣意的な解釈だと思いますよ。)
少なくとも「主観確率での枠組み」でベイズ統計を紹介するにはどのみちこの問題は適さないと思います。

ベイズの定理

ベイズ統計学の基本は、ベイズの定理を適用するだけです。

ベイズの定理については、以下を参照。

Reference

参考書籍

リンク


*1 この数字は、適当に僕が思いついた数字です。要は、0.1よりももっとすごく小さいと言いたいだけ。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-10-27 (日) 18:09:58 (1306d)