麻雀部部長の榛澤です。
新年明けましておめでとうございます。
厳しい寒さが続きますが、皆様いかがお過ごしでしょうか。
幸運にも新年1発目の記事を担当させていただくことになりました。
それでは今日も統計学の知識を深めていきましょう。
今日のお題は「二項分布」です。
二項分布とは、ベルヌーイ試行を数回繰り返したときに、ある事柄が何回起こるかの確率分布のことです。
何やら難しそうな言葉が出てきましたが理解すれば簡単なことです。一つ一つ解説していきましょう。
ベルヌーイ試行とは結果が2通りしかない事象のことです。
つまり、じゃんけんで勝ったか負けたか、コインを投げて表が出たか裏が出たか、というような事象ですね。
また、試行の結果でその値をとる確率が定まる変数を確率変数といい、確率変数とその値をとる確率との対応を示したものを確率分布といいます。
わかりやすくサイコロを例に下記をみてみましょう。
上表はサイコロを1回だけ振った時に出る目とその確率を示したものです。
このとき出る目のXを確率変数といい、確率変数に対応した確率を示している上表の分布を確率分布というわけですね。
ここで注意しなくてはいけないことは、確率変数は量的な値である必要があり、質的な値を確率変数とすることはできません。このとき出る目のXを確率変数といい、確率変数に対応した確率を示している上表の分布を確率分布というわけですね。
では「大変良い・良い・もう少し」という通信簿からクラスの確率分布を出したいときはどうすれば良いのでしょうか?下記のように便宜的に数値を割り当てればいいのです。
大変良い:3
良い:2
もう少し:1
このように量的な値に置き換えれば、質的な値でも確率分布を導くことができますね。
はい、確率分布についてはこのぐらいにしておいて二項分布の話に戻ります。
つまり二項分布を用いれば100回コインを投げて表が出る回数を確率変数としてその確率を出す、なんてこともできます。
試しに出してみましょう。
コインを100回投げたときの表が出る回数毎の確率 - 集計結果 -
上表は二項分布を使って出した確率分布から集計した結果になります。上表自体は確率分布にはなりません。
二項分布はR言語のdbinom関数を使いますが、ExcelのBINOMDIST関数でもできます。興味がある人はよかったらやってみてくださいね。
上の結果をみると0~40回、60~100回に納まる確率はそれぞれ2.84%しかないということがわかります。感覚よりも低いですね。
このように二項分布を使えば結果が2通りしかない事象(今回でいうと表か裏か)を n 回行ったときに起こる確率を出すことができるわけですね。
では私が実際に最近起こった現象を二項分布で確率を出してみます。
某MMOの話ですが、週に1回挑戦できるコンテンツでおよそ6分の1の確率で出るアイテムがあります。システム側の仕様は公開されていませんので正式な確率はわかりませんが私の調べた結果では6分の1となります。ここでは6分の1という確率で進めます。
私はこのアイテムがとても欲しくてこのコンテンツをやり続けました。19連続外しました。
まわりのユーザが何個も持っている中でこれは体感的にはものすごいものがありました。
ではその確率はどれほどのものなんでしょうか?二項分布で確率分布を出してみます。
19回行って出るアイテム数の確率分布
上表は出たアイテムの個数ごとにそれぞれ確率を示した結果です。上のすべての確率を足すと99.21%になるので残りの0.79%が8~19個となります。
上の結果からわかりますが、私の19連続外れるという現象はなんと3.13%で起こる現象だったわけです。統計学上では一般的に5%枠を逸脱結果、つまり異常値として認識しますがこの数字はまさにそれに当たります。異常値です。
ですがこの確率分布を出して妙に納得しました。まわりのユーザとかを見ていると3個とか4個持ってるユーザが普通にいました。この確率分布はほぼ正確なものだと思われます。
いやーこれは相当ついてない現象だったんですね。
では今回はこの辺で失礼します。それでは今年も宜しくお願い致します。