検定力分析(1)

研究者が軽視しやすい誤り

仮説の検証を行なうさいには、母集団からサンプルを抜き出して、そのサンプルを調査・分析することによって、仮説が支持されるかどうかを判断することになる。それが統計的検定のプロセスである。

検定においては、間違ったことを言わないことに慎重になる。間違ったことを言ってしまう可能性としては2つの異なる種類がある。一つは、帰無仮説が正しいのに、棄却してしまう危険性、逆にいうならば、仮説が支持されないのにも関わらず、支持されるといってしまう確率で、これを第1種の誤りという。研究者は結構、この誤りを犯さないように慎重である。たいていは、この誤りを犯す危険度が、5%、あるいは厳しい場合では1%になるような形で検定を行なう。これは、仮説が支持されるべきでない問題である場合(つまり帰無仮説が正しい場合)に、サンプルを選んで検証をする過程を仮に100回繰り返したとすると、第一種の誤りを犯すのは約5回くらいであり、95回は、そういった誤りを犯さない結論を導くことができるということである。だから、通常は一回きりの調査の場合、誤りを犯す確率が5%に設定することは、そういった誤りをほとんど犯す心配がないと解釈してよい(ただし5%というのは恣意的な数値である)。

ところが、研究者は、もう1つの誤りについては意外と鈍感であったりするのだ。それは、第2種の誤りというもので、帰無仮説が棄却するべきときに、棄却しない確率、逆にいうと、仮説が支持されるはずなのに、支持されないと結論づけてしまう危険性のことである。保守的な立場を取りやすい研究者は、堕一種の誤りについては非常に敏感であるはずなのに、こちらの誤りは敏感でない場合が多い。しかし、第2種の誤りも同じ意味で間違ったことを言ってしまう確率なのだから、こちらにも注意をしなければならない。

この第2種の誤りを犯さない確率を検定力という。つまり、検定をすることによって、仮説を支持する有意味な効果が検出できる可能性という意味である。もっと厳密に言いかえると「帰無仮説が棄却されるはずの場合に棄却する確率」のことである。検定力が95ということは、第2種の誤りを犯す確率が(1−95=5%)ということであり、サンプルを選んで仮説を検証することを仮に100回やったとすれば、第2種の誤りを犯すのは約5回で、残りの95回は、その誤りを犯すこと無く結論を導くことができるというわけである。ところが、検定力が弱い調査をやってしまうとすると、例えば検定力が50の調査をやってしまえば、サンプルを選んで繰り返したとすると、仮に仮説が支持されるべき問題である場合に、2回に1回は、仮説が支持されないと結論づけてしまうわけであるから、通常1回しか行なわれない調査の信憑性には疑問符がつくことは明らかである。しかし、比較的多くの研究が、このような状態で研究をやっているものと思われる。

第1種の誤りと第2種の誤りはトレードオフ

サンプルの数を変化させないと仮定するならば、第一種の誤りを犯せまいと、危険度を低く設定すればするほど、第2種の誤りを犯す可能性が増える。つまり、検定力が弱くなる。2つの誤りにはこういったトレードオフの関係がある。直観的にいえば、仮説が間違っているのに、支持されるといってしまわないようにあまりにも注意するあまりに、仮説が支持されるはずなのに、支持されないといってしまう可能性を高めているわけである。保守主義の功罪である。しかし、サンプル数を増やせば、逆に検定力はあがる。直観的にいえば、サンプル数を増やすということは、それだけサンプルの性質が母集団に近づいていくことになるのであるから、サンプルの性質に誤差を含む度合いが低まっていくからである。仮説に含まれる効果が、サンプルに反映される確率が高まってくるから、仮説が支持されうるときに、されないといってしまう可能性が低くなるわけである。

しかし、確かにサンプル数は多ければ多いほどいいのだけれど、サンプル数を無限大にすることは不可能であり、可能であってもコストが膨大になる。だから、研究者にとっては、第1種の誤りも第2種の誤りもなるべく犯さないようにするためには、適切なサンプル数で調査を行ないたいと思うことになる。果たしてそんなことができるのだろうか。

パート2に続く