Coeficiente kappa de Cohen

El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la proporción de la concordancia observada. En general se cree que es una medida más robusta que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurre por azar. Algunos investigadores han expresado su preocupación por la tendencia de κ a dar por seguras las frecuencias de las categorías observadas, lo que puede tener el efecto de subestimar el acuerdo para una categoría de uso habitual; por esta razón, κ se considera una medida de acuerdo excesivamente conservadora. Otros discuten la afirmación de que kappa "tiene en cuenta" la posibilidad de acuerdo. Para hacerlo con eficacia se requeriría un modelo explícito de cómo afecta el azar a las decisiones de los observadores. El llamado ajuste por azar del estadístico kappa supone que, cuando no están absolutamente seguros, los evaluadores simplemente aventuran una respuesta. Kappa mide el grado de concordancia de las evaluaciones nominales u ordinales realizadas por múltiples evaluadores cuando se evalúan las mismas muestras. Por ejemplo, dos médicos diferentes examinan a 45 pacientes para determinar si tienen una enfermedad específica. ¿Con qué frecuencia coincidirá el diagnóstico de los médicos con respecto a la enfermedad? Otro ejemplo de evaluaciones nominales son las clasificaciones de los defectos encontrados en pantallas de televisores por varios inspectores. ¿Concuerdan consistentemente los inspectores en su clasificación de burbujas, cavidades y sucio? From Wikipedia, the free encyclopedia

El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la proporción de la concordancia observada.^[1] En general se cree que es una medida más robusta que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurre por azar. Algunos investigadores^[2] han expresado su preocupación por la tendencia de κ a dar por seguras las frecuencias de las categorías observadas, lo que puede tener el efecto de subestimar el acuerdo para una categoría de uso habitual; por esta razón, κ se considera una medida de acuerdo excesivamente conservadora.

Otros^[3] discuten la afirmación de que kappa "tiene en cuenta" la posibilidad de acuerdo. Para hacerlo con eficacia se requeriría un modelo explícito de cómo afecta el azar a las decisiones de los observadores. El llamado ajuste por azar del estadístico kappa supone que, cuando no están absolutamente seguros, los evaluadores simplemente aventuran una respuesta (un escenario muy poco realista).

Kappa mide el grado de concordancia de las evaluaciones nominales u ordinales realizadas por múltiples evaluadores cuando se evalúan las mismas muestras.

Por ejemplo, dos médicos diferentes examinan a 45 pacientes para determinar si tienen una enfermedad específica. ¿Con qué frecuencia coincidirá el diagnóstico de los médicos con respecto a la enfermedad (positivo o negativo)?

Otro ejemplo de evaluaciones nominales son las clasificaciones de los defectos encontrados en pantallas de televisores por varios inspectores. ¿Concuerdan consistentemente los inspectores en su clasificación de burbujas, cavidades y sucio?

El Coeficiente kappa de Cohen mide la concordancia entre dos examinadores en sus correspondientes clasificaciones de N elementos en C categorías mutuamente excluyentes. La primera mención de un estadístico similar a kappa se atribuye a Galton (1892),^[4] véase Smeeton (1985).^[5]

La ecuación para κ es:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}},\!

donde Pr(a) es el acuerdo observado relativo entre los observadores, y Pr(e) es la probabilidad hipotética de acuerdo por azar, utilizando los datos observados para calcular las probabilidades de que cada observador clasifique aleatoriamente cada categoría. Si los evaluadores están completamente de acuerdo, entonces κ = 1. Si no hay acuerdo entre los calificadores distinto al que cabría esperar por azar (según lo definido por Pr(e)), κ = 0.

El artículo pionero que introdujo kappa como nueva técnica fue publicado por Jacob Cohen en la revista Educational and Psychological Measurement en 1960.^[6]

Un estadístico similar, llamado pi, fue propuesto por Scott (1955). Kappa de Cohen y pi de Scott difieren en cuanto a la forma de cálculo de Pr(e).

Hay que tener en cuenta que la kappa de Cohen sólo mide el acuerdo entre dos observadores. Para una medida de acuerdo similar (kappa de Fleiss) utilizada cuando hay más de dos observadores, véase Fleiss (1971). La kappa de Fleiss, sin embargo, es una generalización para múltiples observadores del estadístico pi de Scott, y no de la kappa de Cohen.

Ejemplo

Se tiene un grupo de 50 personas que presentan una solicitud de subvención. Cada propuesta de subvención es analizada por dos evaluadores que anotan un "Sí" o un "No", según acepten o rechacen, respectivamente, la solicitud. El resultado del análisis de cada solicitud genera la tabla siguiente, en la que A y B denotan a cada uno de los dos evaluadores:

		B
		Sí	No
A	Sí	20	5
A	No	10	15

Los datos situados en la diagonal formada por los valores 20 y 15, representan el número de solicitudes en el que hay concordancia entre ambos evaluadores. Mientras que la diagonal formada por los valores de 10 y 5, representan los casos en los que hay discordancia entre los evaluadores.

Ahora pues, teniendo en cuenta que de las 50 solicitudes, 20 fueron aceptadas y 15 rechazadas por ambos evaluadores. El porcentaje de acuerdo observado es:

\Pr(a)={\frac {20+15}{50}}=0.70\!

Para calcular Pr(e), es decir, la probabilidad de que el acuerdo entre evaluadores se deba al azar, se advierte que:

El evaluador A acepta (dice "Sí") 25 solicitudes y rechaza (dice "No") 25. Es decir, el evaluador A dice "Sí" el 50% de las veces.
El evaluador B acepta (dice "Sí") 30 solicitudes y rechaza (dice "No") 20. Es decir, el evaluador B dice "Sí" el 60% de las veces.

Por lo tanto, la probabilidad de que ambos evaluadores digan "Sí" al azar es:

\Pr(A)*\Pr(B)=0.50*0.60=0.30\!

Y la probabilidad de que ambos lectores digan "No" al azar es:

\Pr(A)*\Pr(B)=0.50*0.40=0.20\!

Teniendo en cuenta lo anterior, el valor de Pr(e) se calcula como la suma de las probabilidades de decir "Sí" y "No" al azar:

\Pr(e)=0.30+0.20=0.50\!

Aplicando los valores de Pr(a) y Pr(e) en la fórmula de Kappa de Cohen se obtiene:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}}={\frac {0.70-0.50}{1-0.50}}=0.40\!

Los mismos porcentajes, pero diferentes números

Un caso que a veces se considera un problema con la Kappa de Cohen se produce al comparar las Kappas calculadas para dos pares de evaluadores, ambos pares de evaluadores tienen el mismo porcentaje de acuerdo, pero los evaluadores de uno de los pares tienen una distribución de calificaciones similar, mientras los evaluadores del otro par tienen una distribución de calificaciones muy diferente.^[7] Por ejemplo, en las dos tablas siguientes el acuerdo entre A y B es similar (en ambos casos, 60 de cada 100), por lo tanto cabría esperar que los valores correspondientes de Kappa reflejaran esta similitud. Sin embargo, al calcular Kappa para cada tabla:

	Sí	No
Sí	45	15
No	25	15

\kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304

	Sí	No
Sí	25	35
No	5	35

\kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593

encontramos que muestra mayor similitud entre A y B en el segundo caso, en comparación con el primero. Esto se debe a que mientras el porcentaje de acuerdo es el mismo, el porcentaje de acuerdo que ocurriría "por casualidad" es significativamente mayor en el primer caso (0,54 comparado con 0,46).

Coeficiente kappa de Cohen

Ejemplo

Los mismos porcentajes, pero diferentes números

Significado y magnitud

Referencias

Related Articles