状況変数の可能性があるときのOLS回帰は危険

仮に、個人間の変数の関係性(因果関係)を調べているとしよう。通常であれば、ランダムサンプリングによって得られたサンプルを、独立変数から従属変数という形で、通常最初二乗法(Ordinary Least Square: OLS)の回帰分析を実行することになろう。ところが、ランダムサンプルというのはそう簡単に実現することはなく、多くはコンビニエントサンプルだといえよう。そこで注意したいのが、サンプルにおける各個人が、なんらかのグループに属しており、そのグループのもつ状況変数が、個人の変数間に影響を及ぼしている可能性がある場合である。

この場合、OLS回帰を実行することは不適切となる可能性が高い。なぜならば、サンプルの特性として、OLSが前提としているいくつかの条件に違反する可能性が高まるからだ。とりわけ可能性の高いのが、誤差項の独立性である。OLS回帰では、推定誤差が独立かつ正規分布することが前提とされている。しかし、もし各個人が特定グループに属していて、そのグループの状況変数が何らかの影響を与えているとするならば、その状況変数は、グループ内のメンバー全員に同じ影響を与えていることになる。そうすると、個人間の直線関係で推定した場合の誤差項の中には、グループメンバー全員に等しく影響を与えている要因が含まれることになる。そうであれば、グループメンバー間の誤差項の分布はある程度似ることになり、つまりグループ間での誤差項が相関する可能性がでてきるわけであり、そうであれば、誤差項の独立性の前提に違反することになるのである。

では、OLS回帰の前提条件に批判することがどう結果に影響するのだろうか。それは、仮にグループの状況変数が、そのグループメンバーに等しく何らかの影響を与えているとする場合、その変数の影響は、グループの数を単位として分布、分散するはずである。したがって、そういった影響の推計にはサンプル数の単位はグループ数ということになる。ところが、個人レベルの変数間の関係を調べるべく、通常のOLS回帰分析を行うならば、偏回帰係数の推定値と、その標準誤差の計算には、サンプル数として個人の人数、つまりグループ数よりも多い人数が使われる。そのサンプル数の情報を用いて、回帰係数の標準誤差を推定し、その標準誤差が、回帰係数の有意性の検定に使われるわけであるから、本来ならばグループの数をサンプル数として用いられるべき標準誤差の推定に比べ、格段に標準誤差を甘く見積もることになりかねない。そうであれば、必要以上に標準誤差を低く見積もった結果として、実は回帰係数が有意ではないのにも関わらず、有意であると結論付けてしまう可能性がでてくるわけである。つまり、検定上の第一種の誤りを犯す可能性がよりいっそう高まるということである。

つまり、見かけ上の個人変数間の関係は、実はグループのなんらかの状況要因が左右してそうなっているだけであって、本当の個人間の関係があるわけではない場合においても、統計分析の結論として、個人変数間に何らかの関係性があると誤って結論付けてしまう可能性があるということだ。このようなことを防ぐために、サンプルの特性によって、グループの状況変数が何らかの影響を与えている可能性が示唆される場合、また、ダービーワトソン比の検討によって、OLS回帰の前提を違反している可能性が高い場合には、OLS回帰分析を使わず、代わりにGLS回帰分析を使うのが適切であるというのが、統計分析上の定説となっているようである。