検定力分析(2)

研究者の犯しやすい別の誤り

前回、第1種の誤りと第2種の誤りはトレードオフだということを述べた。ところが、多くの研究では、前者が起こる確率を5%以下にすることが慣例になっている。たまに、危険度を10%にしてみたり、1%にしてみたりすることがあるが、多くの研究が「5%有意水準」を用いて検証を行なう。ここで、研究者が過ちを犯しやすい事項についてちょっと触れておこう。仮に、ある検定で、5%有意水準を設定した時に、実際に出てきた統計量が、0.5%付近という非常に小さい値であった場合、何を意味するのであろうか。これをもって「5%有意水準をはるかに下回る値になっているから、仮説が仮に統計量が4%付近であった場合にくらべて確実に支持される、あるいは仮説として考えられている効果が非常に大きいことの表われだ」と答えたならば間違いである。

検定力のところに話を戻すならば、上記の例では、検定力を示す数値はいっさいでてきていないわけであるから、上記の調査では、もし検定力が低ければ、第2種の誤りを犯す確率は高いのである。だから、たまたま、5%水準をはるかに下回る結果が出ただけであって、仮にまたサンプル抽出から繰り返して同じ調査をやったら、今度は仮説が支持されないという結論が導かれる可能性があるわけだ。たまたま、仮説を支持できたということで、検定力が低ければ信憑性の低い調査をやっていることに変わりはない。また、上記の調査で非常に低い統計量が計算されたということと、仮説で考えられている効果が大きいということは無関係である。単に、非常に保守的に危険度を設定して、第一種の誤り(すなわち仮説が支持されるべきでない場合に、支持されると結論付けてしまう可能性)がないようにしていたとしても、同じような結論が導き出せただろうということである。

効果サイズ

仮説で考えられている効果が強いか弱いかを示すのは、効果サイズという概念である。先に、通常の研究ではアルファ係数(第一種の誤りを犯す確率)を5%に設定(5%有意水準)で行なうことが多いと述べたが、それを前提とするならば、サンプル数を増やせば増やすほど検定力が高まる。これは、サンプル数を増やせば増やすほど、非常に小さな効果でも検出できるということも意味している。つまり、効果サイズが小さい場合でも検出できるわけだ。一方、効果サイズが大きい場合には、少ないサンプルを抜き出しても、あきらかに効果が目に見えるような状態であるわけだから、比較的少ないサンプル数であっても、検定力は強い、すなわち第2種の誤りを犯す確率が低いことになる。

よって、第1種の誤りと弟2種の誤りの両方をできるだけ防ぐようにサンプル数を決めるためには、自分はいったい、どれくらいの効果サイズを検出したいのかということから始まって、必要となるサンプル数を類推するのが1つの戦略である。サンプル数をやたら増やして、非常に小さな効果を発見できたとしても、その効果の存在が、どれだけ意味があるのかということを考えるべきである。その効果があったところで、あまりにも小さすぎて実践には何の示唆ももたらさないだろうとか、理論的にあまり付加価値がないということでは、膨大なコストをかけて大量サンプルを集める意味がないからである。

効果サイズは、例えば2つのサンプルの平均値に差があるかどうかをt検定するような場合だと、その2つの母集団の平均がどれくらい離れているかというイメージである。あるいは、2つの変数の相関係数をとった場合に、どれだけその相関係数が高いかどうかというイメージである。社会科学の経験則としては、小さいサイズ、中くらいのサイズ、大きなサイズというように3つに便宜的に分けて考えるのが比較的便利である。

効果サイズの大・中・小の目安

まず、小さな効果サイズというのは、平均値の差で考える場合、母集団の分布の標準偏差の10%くらいの差がある場合(d値=0.1の場合)であり、分布のイメージとしては、2つの分布はかなりオーバーラップしている感じである。実際、オーバーラップしていない部分は全体の14.7%である。相関係数で考えるならば、だいたい0.1である。これは、YとXの関係を考えた場合に、XはYの分散の1%しか説明していないことになる(0.1×0.1=0.01)。このように通常は非常に小さな効果サイズというわけだが、研究によっては、このような効果サイズでも検出したい場合がある。その場合には、サンプル数をかなり増やさなければならない。このような小さな効果サイズでも検出したい理由は、比較的新しい概念を使っているために、測定誤差が大きい場合などが挙げられる。つまり、仮説で考えられている効果はもっと大きなはずだけれども、測定方法などが洗練化されていないために、抽出したサンプルの情報にはノイズがたくさん含まれているから、そのノイズの中から小さな効果でも検出したいわけである。

中くらいの効果サイズというのは、平均値の差でいえば、d値が.5であり、2つの母集団の分布の33%がオーバーラップしていないというような状態である。これは、目で見ても違いがわかるようなくらいの大きさである。相関でいえば、0.3であり、XはYの分散の9%を説明するという程度である。こう考えると、中くらいのサイズといってもかなり小さいではないかというように思われるかもしれない。しかし、社会科学の研究の経験則では、このくらいの効果サイズである場合がかなり多いのである。繰り返しになるが、社会科学では、概念の測定が非常に難しい。場合によっては定性的なものを無理矢理数量化して捉える向きもある。だから、測定に誤差があるということが前提となっているので、これくらいの効果サイズであっても中くらいと見るのが経験則なのである。

大きな効果サイズというのは、d値でいえば0.8、つまり平均値の差は、分布の標準偏差の役8割分離れているような状態であり、分布の47.4%、つなわち分布の半分近くはオーバーラップしていない状態である。相関でいえば、0.5であり、Yの分散をXが説明する度合いは25%ということになる。社会科学の経験則では、相関係数で0.5の効果はかなり大きなものであり、それ前後の値よりも、大きな効果が検出されるのはそんなに多くはない。

検定力表・サンプルサイズ表

実際の調査のデザインをするとき、あるいは終わった調査の検定力が実際にどれくらいあったのかを知るには、検定力表を使うのが便利である。検定力表は、サンプル数、検出したい効果サイズを決めた場合に、検定力がいくつになるのかを示した表である。この表から、検出したい効果サイズと、どれくらいの検定力が欲しいかという視点から、だいたいどれくらいのサンプル数が必要となるかを推定するサンプルサイズ表を作ることもできる。