Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:
,
wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt
und
der Vektor der Regressionskoeffizienten ist (hierbei ist
die Anzahl der zu schätzenden unbekannten Parameter und
die Anzahl der erklärenden Variablen), und
die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann
, woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:
,
wobei
die Prädiktionsmatrix darstellt. Das
te Diagonalelement von
ist gegeben durch
, wobei
die
-te Zeile der Datenmatrix
ist.[1] Die Werte werden auch als „Hebelwerte“ der
ten Beobachtung bezeichnet. Um den Einfluss eines Punktes
zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf
und
. Der Schätzer von
, der dadurch gewonnen wird, dass die
te Beobachtung
ausgelassen wird, ist gegeben durch
.[2] Man kann
mit
mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]
,
wobei
die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß
ist proportional zum gewöhnlichen euklidischen Abstand zwischen
und
. Daher ist
groß, wenn die Beobachtung
eine substantiellen Einfluss auf sowohl
, als auch
hat.
Eine numerisch einfachere Darstellung von
ist gegeben durch:[5]
,
wobei
die studentisierten Residuen
darstellen.