重回帰分析の前提条件

重回帰分析は、人事組織の研究分野でももっともポピュラーな統計手法である。モデルそのものがわかりやすいこともあって、多くの研究者や実務家が重回帰分析を用いたデータ解析を行なったりするが、わかりやすいゆえに、重回帰分析を間違って使う場合が後を立たないように思われる。特に、実務においてそれが用いられる場合には、そういった間違いがそれほど実践的に深刻なダメージを与えない場合が多いのであろうが、場合によっては大きな判断ミスを犯すことにもつながる。研究の場合にはなおさら、間違った使われかたは致命傷にもなりかねない。

重回帰分析を間違って用いる例として多いのは、重回帰分析を用いるにあたって前提となるいくつかの条件をきちんと吟味しないで、前提条件にあっていないような統計データに、一般的な重回帰分析を用いているものである。重回帰分析の前提条件を満たしていないならば、その弊害として起こりうるのは、まず重回帰分析で出てくる回帰係数が正しく計算されないことである。それに関連して、決定係数や、回帰モデルの検定や、信頼区間すべてが間違ってくる。つまり、重回帰分析で導き出されるこれらの指標はすべて母集団を的確に反映するものではなくなってくるということである。回帰係数が正しく計算される場合であっても、検定や信頼区間の計算が正しく行なわれない場合が出てくる。ここでは、一般的な重回帰分析として、一般的最小二乗法(Ordinary Least Square: OLS)に基づく重回帰分析をやるにあたって、確かめなければならない前提条件について説明しよう。

適切な従属−独立変数関係

直線回帰であるならば、従属変数と独立変数は、直線の関係でなければならない。しかし、データによっては、それは非線型の関係が当てはまるべきである場合がある。これを無視していわゆるOLS回帰をやってしまうと結論を誤ることになりかねない。この前提が守られているかどうかを確かめるのに便利な方法は、従属変数と独立変数との関係の散布図を作成して、目で確かめてみることである。それで、直線があてはまりそうか、あるいは曲線をあてはめるのが望ましいかがある程度判断できる。

適切な独立変数群

重回帰分析では、検証したいモデルや理論に含まれるべき独立変数はすべてモデル式の中に加えなければならない。もし、モデルや理論に含まれるべき変数のうちどれだけかが抜けてしまっている場合には、モデルの妥当性が検証できない。これは、モデルや理論を作る過程で、重要な変数を見落としてしまっている場合もありうるので、この場合も散布図をいくつも作成して、注意深く従属変数と独立変数の関係を観察し、重要な変数が抜け落ちていないかを検証するのがよい。

変数の誤差が無いこと

重回帰分析では、用いられる変数の測定には誤差がないことが前提となっている。もちろん、社会科学では概念がパーフェクトな信頼性で測定できることは不可能であるが、重回帰分析の前提を破らないためには、変数の測定には注意して、できるだけ高い信頼性をもった測定手段を用いなければならない。もし、信頼性が低く、誤差が多く含まれる測定手段を用いて測定されたデータをもとに重回帰分析を行なうならば、結果としてでてくる決定係数は常に過小評価されることになる。また、偏回帰変数なども、数値が希薄化され、実際の母集団よりも過小評価された結果が導き出されることにつながる。測定の信頼性を推定する計算はいくつかあり、例えばクロンバックのアルファとか、再テスト法、測定者間信頼性(interrater reliability)などがある。

推定誤差の分散の安定生(Homoscedasticity)

重回帰分析では、どの独立変数の値に対しても、重回帰によって推定される従属変数の値の推定誤差の分散は、一定でなければならない。言い換えるならば、重回帰で得られる直線から、観測データが外れている度合いは、常に一定であることが前提となっている。もし、この条件が守られていない場合は、推定された回帰係数はバイアスがかからなくても、モデルの検定や信頼区間の推定にバイアスがかかることが予想される。この前提が守られているかを確かめる方法としては、多くの統計ソフトウェアが、推定誤差の分布をプロットする機能をもっているので、それによって図示して確かめることが可能である。

推定誤差の独立性

重回帰によって推定される値の推定誤差は、それぞれが独立していることが前提となっている。つまり、重回帰で推定された値から外れている観測値どうしの関係はなく、なんらかの法則性が見出されてはいけない。もしこの前提が守られていないと、推定される標準誤差の適切性に影響を与える。統計ソフトウェアは、インデクスプロットという図を提供する機能を多くが持っているので、それで推定誤差の独立性を確かめることができる。

推定誤差の正規性

重回帰によって特定の独立変数のもとで推定される値の推定誤差は、正規分布にしたがっていることが前提となっている。もし、分析に用いるサンプル数が十分に大きければ、この推定誤差の正規性の前提が守られていなくても、深刻な問題は引き起こさないが、サンプル数が少ない場合に、この前提が守られていないことが、モデルの検定や信頼区間の推定に影響を与える。推定誤差の正規性の検証には、ごく単純なものとして、推定誤差のヒストグラムを作成する方法や、もう少し厳密なものとして、正規性を検定する機能を統計ソフトウェアが持っている場合が多い。

重回帰分析の前提が守られていない場合

上記で挙げたような前提条件を満たしているかどうかを確かめてみるのが、重回帰分析を使う上でまずやらなければならないことである。もし、どれかが守られていなければ、いわゆるOLS回帰ではなく、別の代替案を探して実行することになる。それらについてはまた別の機会に述べる。