Topic No.002

正規分布図と標準偏差




正規分布図

正規分布図
 いきなりですが、例えば、全国の小学6年生の身長をグラフ化します。その際、小学6年生の総数を1.0(つまり100%ですね)とします。そして、x軸には身長の値を、y軸には身長xに当てはまる生徒の割合をグラフで表します。すると、グラフは平均値を中心とした左右対称の滑らかな曲線描く筈です。これが、正規分布図と呼ばれるグラフです。

正規分布図の特徴を以下に示します。
  1. 平均値が最も高い(山の一番高いところに平均値が来る)
  2. 釣鐘型である(左右対称の滑らかな山型曲線)
  3. y 値は常に正の値を取る
  4. 身長・工場のネジ・試験の点数の分布etc.日常のあらゆる物に広く利用されている
  5. 曲線内の面積は常に1.0(100%)である
 まあ、大体こんなところでしょうか。もう少し具体的に、とある工場で作成されているネジをグラフ化してみます。すると、その図も上記のような正規分布図を描くでしょう。そして、大体において作成したい長さ(これを『目標値』と言います)が平均値を取ります。その平均値から漏れたネジたちは平均値の軸を中心に左右に徐々に浅くなりながら広がっていきます。この裾の広がりを『バラツキ』と呼ぶのですが、バラツキが広ければ広いほど何を意味するかお分かりでしょうか?それは、そのネジの精度が低いことを意味します。更に、その工場で製作されている他の部品までそのような傾向を示すとしたら、それはその工場の品質管理に問題があると考えることもできちゃうわけです。なかなかやりますね。


分散とは?

 正規分布というものは大体分かっていただけたでしょうか?それほど説明がなくても直感的に理解していた方も多いのではないかと思います。しかし、正規分布図の載っている資料をぽんっ!と渡されて、その特性を客観的に掴める方はどれくらいいらっしゃるのでしょうか?ましてや、その資料に2つの正規分布図が載っていた場合、どうやってその2つの違いを理解すれば良いのでしょう?更に、その特性を人に伝えるにはどうするか?そう考えたときに、共通に認識可能な手段として、数値化というものが出てきます。行き着くところは結局数ですが、仕方ないことなので、頑張って読み進めて下さい。_(._.)_どれどれ...
分散の説明のためのヒストグラム
 さてさて、手始めに上のヒストグラム図を分析してみませう。図は、どこかの学校のどこかのクラスの何かのテストの平均点です。図のマス1つ辺り1人ではなく、割合としていますので注意してください。
 それでは、平均値を求めてみます。a. b. c.のどれも平均値は80点となりました。ここで、おしまいではありません。疑問を感じてください。a. b. c.のどの図にも80点を取った生徒なんていないのです。しかも、3つとも異なる図なのに、なんの差別化もできていません。平均の持つ重要な特性として、『異常値の影響を受けやすい』というのがあるのです。これでは困りますね。そこで、登場するのが『レンジ』(データの幅)です。レンジだって活躍の場があるわけです。私は調べていて初めて知りましたが...。

レンジ = 最大値 − 最小値

とゆー式がありましたね。これを利用すると、
a.:20b.:40c.:40
とゆー結果になります。ここから読み取れることは、a.はb.・c.と比べてバラツキが小さいとゆー事実です。※注:ネジではありませんから精度が高いとかそういうことじゃないので...。
 じゃあ、b.とc.の違いはどうやって説明しましょう?はいっ!ここで漸く『分散』の登場です。その前にレンジだけでは説明は無理なのかという疑問を解決しましょう。つまり、レンジは単純にそのデータ分布の広がりを知るには便利なのですが、問題は最大値と最小値以外の数値が無視されてしまうことです。その点、分散は、『各々のデータと平均値とのズレ』(もっと噛み砕くと、すべてのデータ一つ一つから平均値を引くとゆーことです)から求めるため、すべてのデータを反映した値を算出できるわけです。

分散σ(シグマ)を求める公式

分散を求める公式

 ちょっと分かりずらいですね。少し具体的に説明します。ただ、分散は『各々のデータと平均値とのズレ』という言葉を念頭に置いて読み進めて下さい。
 まず、分散を求めるべきデータがあり、その個数がn個あるとします。すると平均エックスバー(えっくすばーと読みます)は次の式で求められます。
平均を求める式

 ちなみに、これを最初の式のΣを応用して記入すると、こうなります。
シグマを使った平均を求める式

 で、問題の分散を分かりやすく記入すると、こんな感じです。
分散を求める式分かりやすくしたもの

 意味するところは最初の式と同じで、『各々のデータと平均値とのズレ』を算出することを目的とします。
 この式を利用して、未解決のa.b.c.の図の分散を求めてみると、
a.:100b.:400c.:250

となる筈です。結果、a. b. c.の説明としては、3つとも平均が80、分散はそれぞれ100、400、250と説明することが出来ます。
◆分散の要約
 さて、遅ればせながら分散を一言で言いますと、『データの散らばり具合』、いわゆるバラツキです。分散が小さければ、データは平均値の軸に集まっていますし、分散が大きければ、平均値の軸から遠いデータが多いと考えられます。それをあいまいさなく数値で表現しようとするわけです。計算式では、2乗して算出していますが、これでは元の単位の2乗になってしまいますので、単位を揃えるために分散の平方根を取り、元のデータと単位をあわせます。これによって生まれるのが、次項で説明する『標準偏差』です。
◆分散を求めるのに、なぜ2乗するの?
 なぜ2乗するのか?(なぜぼくのIME2000はすぐどこかへ行ってしまうのか...?)平方根で元の単位に戻すなら、絶対値を使った方が便利なのでは?
 そう考えて悩んでしまった方は、ぼくと同類です...。結論から言いますと、『絶対値ではあとあとの計算がやりずらい』とゆーことです。あまり具体的な説明が出来ないのですが、絶対値を使用すると場合分けの必要が生じて計算がしにくく、他の部分への応用も不便なのだそうです。そこで、数学的にだいたい同じ意味を持つように2乗を用いるわけです。
コラム:mとσ
 "m"とはmean(平均)の略です。"σ"(sigma)は英字のsで、standard deviation(標準偏差)を表します。なぜsでなくσを使うのかといいますと、sとmじゃやっぱりまずいのでしょう。多分...。


標準偏差とは?

 先に説明したように、標準偏差とは分散の平方根です。分散で単位が2乗にされてしまった物を改めて、元のデータと単位を合わせたものです。つまり、標準偏差も分布の広がり具合を示すわけですね。

◆標準偏差の特性
 『標準偏差の3倍以内』にほぼ全データが入る

  1. 標準偏差(σ)×1...68%(68.26%)
  2. 標準偏差(σ)×2...95%(95.44%)
  3. 標準偏差(σ)×3...ほぼすべて(99.74%)
 例:平均点:60点。標準偏差:5で、点数は正規分布に従うとした場合、どの範囲に「データの95%」が入ると推定できるでしょうか? 求め方は、上記の式を利用します。

 5(標準偏差)×2(95%になる数値)=10

 求められた解:10点が平均値を軸に左右対象に広がるわけですから、

 60−10=50 60+10=70

となり、50〜70点の間に95%が含まれると考えられます。知ってしまえば、余り難しいものではありませんね。数学的理屈は難解ですけど...。  ちなみに、上記の計算は『m(平均)±2σ(標準偏差)』(=95%)と書き直せます。意外と出番があるので、覚えてしまうと便利ですよ。
◆コラム:3σ
 実は、ぼくが担当した『管理図』というのは、この確率の考えが応用されていまして、管理限界線とゆーのは、『3σ』を基準に設けられているそうです。雑学的ですね。


標準正規分布

標準正規分布図
 まあ、だいたいこんなものなのですが、一応、『標準正規分布』なるものも非常に簡易的に説明します。それ以上は求めないで下さい。
 正規分布はmとσのみで決まるということは、皆さんもなんとなく理解できたのではないかと思います。しかし、このままでは毎回のデータが異なり(mやσが変化する)、データ処理や判断に都合がよいとは言えないので、『標準化』(あるいは『規格化』)という処理を施します。それは、平均mを0、標準偏差σを1とした正規分布N(0,12に合わせることです。
 さまざまな正規分布も、このN(0,12)に合わせることで、N(0,12)用に作成された標準正規分布表というものが容易に使えるようになるのです。ちなみに、『標準偏差の特性』で紹介した『標準偏差(σ)×1,2,3』とはこの引用です。
<以上:achu>
> トピックメニューに戻る
>> トップページに戻る