読者です 読者をやめる 読者になる 読者になる

標準偏差のお話 ~10倍返しの統計学 その5~

統計
いつもお世話になっております。
麻雀部部長の榛澤です。

師走に入り、木枯らしの冷たさが身にしみる時期になりましたが
皆様ますますご活躍のこととご拝察いたします。

さて、今日は標準偏差のお話をしていきます。
標準偏差という言葉は一度は聞いたことがあるかと思います。初めて聞くという方も安心してください。
このブログを読み終える頃には完璧に理解しているはずです。
ちなみにこの完璧という漢字、「完全なる壁」ではありません。土ではなく玉になっています。
知っていましたでしょうか??
はい、話を戻します。

標準偏差とは何か?それは非常に分散と似ています。
分散が何かを忘れてしまった人は前回の記事をおさらいしましょう!

分散のお話 ~10倍返しの統計学 その4~

はい、思い出しましたね。分散とはデータのばらつきをしめし、「母分散」「標本分散」「不偏分散」の3つがありましたね。
標準偏差とは分散の平方根の値です。つまり、ルートをつけただけです。
よって分散と同様にデータのばらつきを示すものとなりますが、一般的にデータのばらつきを比較したいなどといったときには分散ではなく、標準偏差の方を用います。
分散は計算の過程で値を2乗していますから、同じ物の尺度として捉えるには累乗根を取った値である標準偏差の方が人間の感覚にしっくりくるというわけですね。

そして、ご察しの通り標準偏差にも大きく分けると下記の3種類があります。
・母標準偏差
・標本標準偏差
・不偏標準偏差


標準偏差は母分散の平方根標本標準偏差は標本分散の平方根不偏標準偏差は不偏分散の平方根となります。
それぞれの意味は前回の記事で説明したとおりですので、今回は割愛させていただきます。

標準偏差とは先ほど申しました通り、データのばらつきを示すものです。標準偏差の値が大きければそのデータ群は散らばっていて、標準偏差の値が小さければそのデータ群はまとまっているという見方をします。
ですが統計学において標準偏差はそのような使い方には留まりません。統計学にはたくさんの解析手法がありますが、多くの手法の中でこの標準偏差を計算途中で使います
なので標準偏差というのは解析をするための基本事項として捉えておけばいいと思います。

さらに正規分布標準偏差の関係性についてもここで少し触れていきます。
WS000441

上図のような形のデータが正規分布のデータといえます。正規分布の特徴としては下記のことが挙げられます。
・平均値が最も高い(山の一番高いところ)
・左右対称の山型曲線
・y値は常に正

このような正規分布型になる例としては、例えば全国の中学生の身長や体重などがありますね。横軸に身長や体重、縦軸には人数といったグラフにすれば上図のような正規分布の形になるはずです。

そしてここで触れておきたいことは、この正規分布型のデータに対して標準偏差はある関係性があるのです。
WS000443WS000444WS000445

標準偏差をσとしたとき、正規分布のデータに対して下記のことがいえます。
平均値±σに収まる範囲は68.27%
平均値±2σに収まる範囲は95.45%
平均値±3σに収まる範囲は99.73%

統計学では一般的に外側の5%のデータを逸脱したデータであるとみなします。つまり、偶然起こる現象ではないと捉えます。よってデータが正規分布しているとわかれば、標準偏差から逸脱しているデータは推測できます。
この考え方はまた有意水準という言葉を説明するときに触れますので、今回は上記の関係性があるんだなぐらいで受け止めていただければと思います。


標準偏差を使った身近な例としては偏差値があります。学生時代によくテストの結果で見てたあれですね。
知っている人も多いでしょうが、あの偏差値という数値がどういう過程で出されるのかをみていきましょう。

WS000446

上記のように10人の生徒がいて、この中で偏差値をそれぞれ求めたいと思います。
まずは平均値を出します。平均点は75点です。

次に分散を出します。さてここで求めるべき分散は「母分散」「標本分散」「不偏分散」、どれになるでしょうか?
今回はAさんからJさんのメンバーを母集団としてそれぞれ偏差値を出すので、ここで求めるのは母分散になります。
上記の表の偏差とは平均値との差です。分散は偏差の2乗の平均値なので、計算すると母分散は289になります。

そして標準偏差を求めます。ここで求める標準偏差は当然、標準偏差になります。
母分散の平方根なので√289 = 17 となります。

ここまでくれば偏差値を出す準備が整いました。偏差に10をかけて標準偏差で割った値を計算します。

 平均点:75 標準偏差:17
WS000447
 ※わかりやすくするため小数点は四捨五入して整数で表示しています。

計算した値を平均点より高ければ50に足し、平均点より低ければ50から引きます。
つまりAさんの偏差値は44、Bさんの偏差値は50、Cさんの偏差値は...というように計算すると下記のようになります。

WS000448

これで全員の偏差値が出ました。つまり偏差値とは平均を50としてその人がどれだけ母集団から剥離しているかという数値なわけですね。

ちなみにこの偏差値、イメージとしては20ぐらいから80ぐらいまでっていう感覚があるのですが実際はどうなんでしょうか?
実は制限がないのです。例えば100人いて1人だけ100点で他の99人が0点のとき、100点を取った人の偏差値は149だし、1人だけ0点で他の99人が100点だったときは0点を取った人の偏差値は-49となります。
偏差値に上限下限はありません数字は無限ですので偏差値も無限なのです。

はい、今回はこのへんで終わります。年内はこの記事を最後にしようと思います。
来年も是非宜しくお願い致します!
それでは早いですが、良いお年を!