スチューデント化残差

From Wikipedia, the free encyclopedia

スチューデント化残差(スチューデントかざんさ、: studentized residual)とは、統計学において、残差をその標準偏差推定量で割って補正したものである。スチューデント化は「外れ値」の検出にあたり重要な技法である。

「スチューデント化」の名称はウィリアム・ゴセットの筆名「スチューデント」にちなむ。

誤差と残差の違いを理解することは非常に重要である。簡単な線形回帰モデル

を考えよう。ここで「誤差」 εi , i = 1, ... , n は統計的に独立 ですべて同じ分散 σ2 をもつものとする。

残差は真でなく観測もできない誤差ではなく、観測可能なデータに基く誤差の推定値である。最小二乗法α0α1を推定したとき、(誤差と異なり)残差は、独立ではありえない。なぜなら残差は以下の 2 つの拘束条件を満たすからである。

ここで i 番目の誤差、 i 番目の残差を表す。

さらに、誤差と異なり残差は、同じ分散を持たない。分散は対応する x-値が x-値の平均から遠ざかるにつれ減少する。これは回帰分析の予測値が、説明変数の分布する領域の端の方であるほどより影響を受けることと、データの回帰係数に及ぼす影響力が高いほど変わりやすいということによるものである。これは説明変数の分布の端の方のデータにおける残差はまた傾きの推定値によって大きく影響を受けるが、説明変数の分布の平均辺りのデータにおける残差は傾きによる影響をあまり受けないということによっても確認できる。真の誤差の分散がすべて等しいにもかかわらず残差の分散が異なるという事実は、スチューデント化が必要な主要な理由である。これは単に母集団パラメータ(平均と標準偏差)が未知であるという問題ではなく、一変量分布についての点推定のように同じ残差分布をデータが共有するのとは異なり、回帰分析するということが異なるデータポイントに対して異なる残差分布を生み出してしまうということである。

スチューデント化の手順

この簡単なモデルでは、計画行列

であり、「ハット行列」(hat matrix) H は計画行列の列空間への直交射影である。

「てこ値」(てこち、leverage、レバレッジ)hii はハット行列の第 i 対角要素である。i 番目の残差の分散は

で、対応する「スチューデント化残差」は

である。ここで は適当な σ の推定量である。

内部スチューデント化と外部スチューデント化

参考文献

関連項目

Related Articles

Wikiwand AI