麻雀部部長の榛澤です。
さざんかが咲き、落葉の季節となりましたが
皆様お健やかにお過ごしでいらっしゃいますか。
さて、今回は分散のお話をしていきたいと思います。
あなたは分散と聞いてピンときますか?
聞いたことはあるけどあまりよくわかっていない、そんなあなたのためのブログです。
分散とは一言でいうとデータのばらつきです。
と聞いてもよくわからないですよね。下記をご覧ください。
計算すれば平均値は60(kg)であることがわかります。
ではばらつきを示す分散値を出してみましょう。下記の手順で求めます。
① それぞれの値で平均値との差を2乗した値を求めます。
(74 - 60)^2 = 196, (62 - 60)^2 = 4, (58 - 60)^2 = 4, ... , (66 - 60)^2 = 36
② ①で求めた値をすべて足し、総度数(集団の数、上記でいうと30)で割ります。
上記の手順で計算すると分散値は123.13になります。(74 - 60)^2 = 196, (62 - 60)^2 = 4, (58 - 60)^2 = 4, ... , (66 - 60)^2 = 36
② ①で求めた値をすべて足し、総度数(集団の数、上記でいうと30)で割ります。
では123.13という数値は大きいのでしょうか?小さいのでしょうか?
実は分散値だけではほとんど何もわかりません。
ここでBクラスの体重リストをみてみましょう。
偶然にも平均値はAクラスと同様に60(kg)です。
分散値を求めると295.4となりました。
つまり、Bクラスの体重分布はAクラスよりも散らばっているということがわかります。
ヒストグラムでも分布をみてみましょう。
Aクラスは平均値の階級に密集しているのに対し、Bクラスは広い範囲に散らばっているのがわかります。
このように分散とはそれだけでは特に情報がなく、他の集団と比較して初めてその数値がどうなのかがわかります。また、今後紹介していく分析手法の過程で分散を用いることが多々あります。
それだけに分散は重要なものなので、ここではもう少し深く説明していきます。
分散と一口に言っても、実は分散には大きく分けて3つの種類のものがあります。
・母分散
・標本分散
・不偏分散
では順番に説明していきましょう。
■母分散
母分散とは母集団の分散です。先ほどのAクラスやBクラスの体重リストは母集団なので、求めた分散は母分散にあたります。
■標本分散
標本分散とは標本の分散です。標本とは母集団からいくつか取りだしたサンプル群のことをいいます。
AクラスとBクラスからそれぞれ10人、サンプルとしてランダムに取りだしてみます。
Aクラスの標本平均は63.4、Bクラスの標本平均は55.1となりました。
分散はAクラスが92.04、Bクラスが192.09となります。
この分散値が標本分散にあたります。
ここで一旦、ここまでの情報をまとめてみましょう。
・標本平均は母平均に収束する
・標本分散は母分散よりも若干小さい数値に収束する
今回の場合でいうと確かに標本分散は母分散よりも小さいですね。ですがこれは今回たまたま起こったことです。試行回数を増やせば小さく収束するというだけで、毎回の試行で必ずそうなるものではありません。
今回の記事では深追いはしませんが、一般的に言われている上の2つの事柄についてはR言語でシミュレーションをして果たして本当なのかということを検証する回を設けるつもりです。
では標本分散についてはこれぐらいでいいですね、次いきましょう。
■不偏分散
不偏分散とは標本分散の値に補正をかけて母分散の値に近付けたものです。先ほど説明した通り、標本分散というのは母分散と比べて小さくなる傾向があります。そこで補正をかけて母分散に近い数値にしたものが不偏分散になります。
では具体的にどのような補正が加わるのか?通常の分散を出す過程と違いをみてみましょう。
母分散・標本分散を出す過程
① それぞれの値で平均値との差を2乗した値を求めます。
② ①で求めた値をすべて足し、総度数で割ります。
② ①で求めた値をすべて足し、総度数で割ります。
不偏分散を出す過程
① それぞれの値で平均値との差を2乗した値を求めます。
② ①で求めた値をすべて足し、総度数-1 で割ります。
② ①で求めた値をすべて足し、総度数-1 で割ります。
違いは総度数で割るか、総度数-1 で割るかの差だけです。
先ほどのAクラスとBクラスの標本で不偏分散を求めてみます。
Aクラスの標本の不偏分散は102.27、Bクラスの標本の不偏分散は213.43になります。
またここで一旦、情報をまとめます。
不偏分散は標本分散よりも母分散に近づきました。今回の標本でいうとまだ数値は離れていますが、これも試行回数を重ねるほど母分散に近似していきます。
手元に標本しかなく母集団のデータがない!
といった場合にその標本から全体の分散を推測する、といった感じで求めます。
例えば日本人の何かのデータを追っているとき、1人1人漏れなくデータをとるなんて普通しませんよね。各都道府県から均等に何人かサンプルとしてデータを集めます。
そのサンプルの標本分散から日本人全体の母分散を推測する、ということです。
ではなぜ不偏分散では割る数を-1にするのか?母分散に近付けるというのはわかるがなぜ1なのか?
もちろん適当ではなく、理由があります。これから何度も出てくると思われる「自由度」という考え方に答えはあります。
その辺のこともR言語でシミュレーションして別途記事で紹介していきたいと思います。
さて、今回はこれぐらいにしておきますがこれであなたは分散をほぼ完璧に理解することができたかと思います。次回は標準偏差についてのお話をします。
それではお元気で。