
標準偏差とはばらつきの尺度を求めるものである。
ばらつきの尺度を求めるものは標準偏差と、レインジ、内側四分位レインジがある。
レインジとは最大値と最小値の差で表したとてもシンプルなものであるが、
異常値の影響を受けやすいものである。
内側四分位レインジは上位25%目の値と下位25%目の値の差で表され、
シンプルでかつ異常値の影響も少ないものであるが、捨ててしまう情報があるものである。
標準偏差は全ての数値を考慮できるものである。
標準偏差は、ある分布において、ばらつきがまったく無いならば、
全ての観測値が等しい値をとるわけだが、
このときの平均もまたこの繰り返し観測される値と等しくなるわけである。
すなわち、平均と異なる、あるいは平均から離れている観測値は無い。
しかし、もしばらつきがあれば、観測値は平均から大小さまざまの偏差を示すわけである。
分布の標準偏差を用いることは、全ての観測値の平均からの偏差の一種の『算術平均値』を示すことである。
ばらつきが大きくなればなるほど、偏差は大きなものとなり、その結果標準偏差も大きくなるというわけである。
さて、どうやって標準偏差を求めるかというと、まずはデータ(値)の平均を出し、
その平均とデータの差を出し、その値を2乗し、平均を出す。
この2乗し、その平均の値を分散という。
その分散の平方根が標準偏差になるわけである。
文章だけで説明するとわかりにくいので、分かりやすくすると、
一分間の脈拍のデータを10人分とったとしよう。
その時のデータが、77・80・78・74・83・86・75・79・71・72だったとする。
その時の平均が77.5である。
平均からの差が−0.5・2.5・0.5・−3.5・5.5・8.5・−2.5・1.5・−6.5・−5.5になるわけである。
この値を全てたすと0になります。
さて、この値を2乗しますと、0.25・6.25・0.25・12.25・30.25・72.25・6.25・2.25・42.25・30.25になり、
その平均は20.25になります。この20.25がこのデータの分散値になります。
そしてこの分散の平方根は4.5になり、この値が標準偏差である。
もう少し分かりやすいように表にしてみましょう。
| 番号 | 脈拍数 | 平均からの差 | その差の2乗 |
| 1 | 77 | −0.5 | 0.25 |
| 2 | 80 | 2.5 | 6.25 |
| 3 | 78 | 0.5 | 0.25 |
| 4 | 74 | −3.5 | 12.25 |
| 5 | 83 | 5.5 | 30.25 |
| 6 | 86 | 8.5 | 72.25 |
| 7 | 75 | −2.5 | 6.25 |
| 8 | 79 | 1.5 | 2.25 |
| 9 | 71 | −6.5 | 42.25 |
| 10 | 72 | −5.5 | 30.25 |
| 合計 | 775.00 | 0 | 202.50 |
| 平均 | 77.50 | 0 | 20.25 |
| 分散 | 20.25 |
| 標準偏差(分散の平方根) | 4.50 |
この標準偏差をどのように使用していくかといいますと、
例えばテストの点を他クラスの人と比べる時多分平均点を使用するでしょう。
しかし、平均点を使用するとある問題が起こる時があります。
もし、10点満点の漢字テストをしたとしましょう。
半分の人が0点、もう半分の人が10点だったらこのクラスの平均点は5点になるわけであります。
そう、平均値は異常値の影響を受けやすいのである。
その他にデータの中心を表す指標として中央値・最頻値があります。
中央値(メディアン)は、中央の順位の人の値である。
そして、最頻値(モード)は、最も多くの観測値が集中する値であります。
これらのものは点数を比べるのには物足りないであろう。
さて、話を戻して標準偏差の使用だが、この点数を比べる時に点数が同じで平均点が同じだったとしましょう。
まずAさんは70点で平均点が60点、Bさんも同じだったとしましょう。
Aさんのクラスの標準偏差は5でBさんのクラスが10だったとすると、
これはAさんの方が優秀なことを意味します。
それを説明するためには少し正規分布を使わなくてはなりません。
正規分布とは、標本数(人数)を無限大まで大きくしていくと、
多くの場合分布曲線が、左右対称で滑らかな曲線になります。
このような理想的な曲線を正規分布曲線というわけですが、
この正規分布曲線では、平均からの距離によって値の順位が一定である。
正規分布曲線をモデルとしてデータにあてはめると、
ある数値とある数値の間にどのくらいの値が含まれているか推定できるのである。
正規分布の中で1SDの中に34%の人が含まれていて、
1SDから2SDの間には13.5%の人が、2SDから3SDの間には2.35%の人、
3SDから4SDの間には0.15%の人が含まれていることになっている。
さて、これをもとに先ほどのAさんとBさんの点数を比べてみましょう。
Aさんのクラスの標準偏差は5でした。
そうするとAさんは平均から+10点でしたので、+2SDの位置ということになります。
Aさんはクラス(100人のクラスとすると)で3番くらいです。
Bさんのクラスの標準偏差は10でした。そうするとBさんも平均から+10点ですけども、
+1SDの位置でした。Bさんはクラスで16位くらいでした。
そうしますとAさんの方が優秀ということになります。
そのことを分かりやすくするために値の標準化もしてみましょう。
値の標準化とは異なる分布の中の2つ以上の値について比較したい時、
それぞれが平均から標準偏差いくつ分離れているかを比較したい時に使用する。
その平均から、標準偏差いくつ分離れているかというのはZ得点として数値化される。
まず、AさんだがZ得点は2である。そしてBさんは1である。
このことによりAさんは平均から2SD離れていてBさんが、
1SD離れていることが分かるわけである。
Links to other sites on the Web