In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook’sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.
Definition
Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:
,
wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt und der Vektor der Regressionskoeffizienten ist (hierbei ist die Anzahl der zu schätzenden unbekannten Parameter und die Anzahl der erklärenden Variablen), und die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:
,
wobei die Prädiktionsmatrix darstellt. Das te Diagonalelement von ist gegeben durch , wobei die -te Zeile der Datenmatrix ist.[1] Die Werte werden auch als „Hebelwerte“ der ten Beobachtung bezeichnet. Um den Einfluss eines Punktes zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf und . Der Schätzer von , der dadurch gewonnen wird, dass die te Beobachtung ausgelassen wird, ist gegeben durch .[2] Man kann mit mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]
Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel vorgeschlagen.[6] Andere Autoren haben vorgeschlagen, wobei die Anzahl der Beobachtungen ist.[7]
Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S.257–9.