Equidad (aprendizaje automático)

From Wikipedia, the free encyclopedia

En aprendizaje automático, un algoritmo es justo, o tiene equidad si sus resultados son independientes de un cierto conjunto de variables que consideramos sensibles y no relacionadas con él (p.e.: género, etnia, orientación sexual, etc.).

Las investigaciones sobre equidad en algoritmos de aprendizaje automático son bastante recientes. Sin ir más lejos la mayoría de los artículos publicados sobre este tema son de los últimos tres años.[1] Algunos de los hechos más destacados en este ámbito han sido los siguientes:

  • En 2018 IBM introduce AI Fairness 360, una librería de Python con diversos algoritmos para redurcir el sesgo algorítmico de un programa, aumentando así su equidad.[2]
  • Facebook afirmó en 2018 que hace uso de una herramienta, Fairness Flow, que detecta sesgos en su IA. Sin embargo, no se puede acceder al código de dicha herramienta ni se sabe si realmente corrige estos sesgos.[3]
  • En 2019, Google publica un conjunto de herramientas en Github para estudiar los efectos de la equidad a largo plazo.[4]

A pesar de que se siguen perfeccionando los algoritmos utilizados, los principales avances vienen de la concienciación por parte de algunas grandes empresas de la importancia que va a tener en la sociedad la reducción del sesgo en los algoritmos de aprendizaje automático en un futuro.

Criterios de equidad en problemas de clasificación[5]

En problemas de clasificación, un algoritmo aprende una función para predecir una característica discreta , la variable objetivo, a partir de unas características conocidas . Modelizamos como una variable aleatoria que codifica algunas características contenidas o implícitamente codificadas en que consideramos características protegidas (género, etnia, orientación sexual, etc.). Por último, denotamos por la predicción del clasificador. Ahora pasamos a definir tres criterios principales para evaluar si un clasificador es justo, es decir, si sus predicciones no están influenciadas por algunas de las variables protegidas.

Independencia

Decimos que las variables aleatorias satisfacen la independencia si las características protegidas son estadísticamente independientes a la predicción , y escribimos .

También podemos expresar esta noción con la siguiente fórmula: Esto significa que la probabilidad de ser clasificado por el algoritmo en cada uno de los grupos es la misma para dos individuos con características protegidas distintas.

Se puede dar otra noción equivalente de independencia utilizando el concepto de información mutua entre variables aleatorias, definida como En esta fórmula, es la entropía de la variable estadística. Entonces satisface independencia si .

Una posible relajación de la definición de independencia pasa por la introducción de una variable positiva , y viene dada por la fórmula:

Por último, otra posible relajación pasa por requerir .

Separación

Decimos que las variables aleatorias satisfacen la separación si las características protegidas son estadísticamente independientes a la predicción dado el valor objetivo , y escribimos .

También podemos expresar esta noción con la siguiente fórmula: Esto significa que la probabilidad de ser clasificado por el algoritmo en cada uno de los grupos es la misma para dos individuos con características protegidas distintas dado que ambos pertenecen al mismo grupo (tienen la misma variable objetivo).

Otra expresión equivalente, en el caso de tener una variable objetivo binaria, es la que exige que la tasa de verdaderos positivos y la tasa de falsos positivos sean iguales (y por tanto la tasa de falsos negativos y la tasa de verdaderos negativos también lo sean) para cada valor de las características protegidas:

Por último, una posible relajación de las definiciones dadas es que la diferencia entre tasas sea un número positivo menor que una cierta variable , en lugar de igual a cero.

Suficiencia

Decimos que las variables aleatorias satisfacen la suficiencia si las características protegidas son estadísticamente independientes al valor objetivo dada la predicción , y escribimos .

También podemos expresar esta noción con la siguiente fórmula: Esto significa que la probabilidad de estar en realidad en cada uno de los grupos es la misma para dos individuos con características protegidas distintas dado que la predicción los englobe en el mismo grupo.

Relaciones entre definiciones

Por último, resumimos algunos de los principales resultados que relacionan las tres definiciones dadas arriba:

Métricas[6]

La mayoría de medidas de equidad dependen de diferentes métricas, de modo que comenzaremos por definirlas. Cuando trabajamos con un clasificador binario, tanto la clase predicha por el algoritmo como la real pueden tomar dos valores: positivo y negativo. Empecemos ahora explicando las posibles relaciones entre el resultado predicho y el real:

Matriz de confusión
  • Verdadero positivo (TP): Cuando el resultado predicho y el real pertenecen a la clase positiva.
  • Verdadero negativo (TN): Cuando el resultado predicho y el real pertenecen a la clase negativa.
  • Falso positivo (FP): Cuando el resultado predicho es positivo pero el real pertenece a la clase negativa.
  • Falso negativo (FN): Cuando el resultado predicho es negativo pero el real pertenece a la clase positiva.

Estas relaciones pueden ser representadas fácilmente con una matriz de confusión, una tabla que describe la precisión de un modelo de clasificación. En esta matriz, las columnas y las filas representan instancias de las clases predichas y reales, respectivamente.

Utilizando estas relaciones, podemos definir múltiples métricas que podemos usar después para medir la equidad de un algoritmo:

  • Valor predicho positivo (PPV): la fracción de casos positivos que han sido predichos correctamente de entre todas las predicciones positivas. Con frecuencia, se denomina como precisión, y representa la probabilidad de que una predicción positiva sea correcta. Viene dada por la siguiente fórmula:

  • Tasa de descubrimiento de falsos (FDR): la fracción de predicciones positivas que eran en realidad negativas de entre todas las predicciones positivas. Representa la probabilidad de que una predicción positiva sea errónea, y viene dada por la siguiente fórmula:

  • Valor predicho negativo (NPV): la fracción de casos negativos que han sido predichos correctamente de entre todas las predicciones negativas. Representa la probabilidad de que una predicción negativa sea correcta, y viene dada por la siguiente fórmula:

  • Tasa de omisión de falsos (FOR): la fracción de predicciones negativas que eran en realidad positivas de entre todas las predicciones negativas. Representa la probabilidad de que una predicción negativa sea errónea, y viene dada por la siguiente fórmula:

  • Tasa de verdaderos positivos (TPR): la fracción de casos positivos que han sido predichos correctamente de entre todos los casos positivos. Con frecuencia, se denomina como exhaustividad, y representa la probabilidad de que los sujetos positivos sean clasificados correctamente como tales. Viene dada por la fórmula:

  • Tasa de falsos negativos (FNR): la fracción de casos positivos que han sido predichos de forma errónea como negativos de entre todos los casos positivos. Representa la probabilidad de que los sujetos positivos sean clasificados erróneamente como negativos, y viene dada por la fórmula:

  • Tasa de verdaderos negativos (TNR): la fracción de casos negativos que han sido predichos correctamente de entre todos los casos negativos. Representa la probabilidad de que los sujetos negativos sean clasificados correctamente como tales, y viene dada por la fórmula:

  • Tasa de falsos positivos (FPR): la fracción de casos negativos que han sido predichos de forma errónea como positivos de entre todos los casos negativos. Representa la probabilidad de que los sujetos negativos sean clasificados erróneamente como positivos, y viene dada por la fórmula:

Otros criterios de equidad

Relación entre los criterios de equidad como se muestra en Barocas y otros.[5]

Los criterios siguientes se pueden entender como métricas de las tres definiciones dadas en la primera sección, o una relajación de las mismas. En la tabla[5] de la derecha podemos ver cómo se relacionan.

Para definir estas métricas específicamente, se dividen en tres grandes grupos como en el trabajo de Verma y otros.[6]: definiciones basadas en el resultado predicho, en el resultado predicho y el real, y definiciones basadas en las probabilidades predichas y el resultado real.

En la siguiente sección se trabaja con un clasificador binario y la siguiente notación: se refiere a la puntuación dada por el clasificador, la cual es la probabilidad que cierto sujeto se encuentre en la clase positiva o negativa. representa la clasificación final predicha por el algoritmo, y su valor es comúnmente derivado de , por ejemplo será positivo cuando esté por encima de cierto valor. representa el resultado real, es decir, la clasificación real del sujeto y, finalmente, denota las variables protegidas del sujeto.

Definiciones basadas en el resultado predicho

Las definiciones en estas secciones se centran en el resultado predicho para varias distribuciones de sujetos. Son las nociones más simples e intuitivas de equidad.

  • Group fairness, también llamado statistical parity, demographic parity, acceptance rate y benchmarking. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen la misma probabilidad de ser asignados a la clase positiva. Es decir, si se satisface la siguiente fórmula:

  • Conditional statistical parity. Consiste básicamente en la definición anterior, pero restringida solo a un subconjunto de los atributos. En notación matemática:

Definiciones basadas en el resultado predicho y el real

Estas definiciones no sólo consideran el resultado predicho pero también lo comparan con el resultado real .

  • Predictive parity, también llamado outcome test. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo PPV. Es decir, si se satisface la siguiente fórmula:

Matemáticamente, si un clasificador tiene el mismo PPV para ambos grupos, también tiene el mismo FDR, satisfaciendo la fórmula:

  • False positive error rate balance, también llamado predictive equality. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo FPR. Es decir, si se satisface la siguiente fórmula:

Matemáticamente, si un clasificador tiene el mismo FPR para ambos grupos, también tiene el mismo TNR, satisfaciendo la fórmula:

  • False negative error rate balance, también llamado equal opportunity. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo FNR. Es decir, si se satisface la siguiente fórmula:

Matemáticamente, si un clasificador tiene el mismo FNR para ambos grupos, también tiene el mismo TPR, satisfaciendo la fórmula:

  • Equalized odds, también llamado conditional procedure accuracy equality and disparate mistreatment. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo TPR y el mismo FPR, satisfaciendo la fórmula:

  • Conditional use accuracy equality. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo PPV y el mismo NPV, satisfaciendo la fórmula:

  • Overall accuracy equality. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen la misma precisión de predicción, es decir, la probabilidad de predecir correctamente a qué clase pertenece un sujeto. Es decir, si se satisface la siguiente fórmula:

  • Treatment equality. Un clasificador satisface esta definición si los sujetos en los grupos protegidos y en los no protegidos tienen el mismo ratio de FN y FP, satisfaciendo la fórmula:

Definiciones basadas en las probabilidades predichas y el resultado real

Estas definiciones se basan en el resultado real y en la probabilidad predicha (la puntuación) .

  • Test-fairness, también conocido como calibration o matching conditional frequencies. Un clasificador satisface esta definición si individuos con la misma puntuación tienen la misma probabilidad de ser clasificados en la clase positiva independientemente de si pertenecen a los grupos protegidos o no:

  • Well-calibration. Es una extensión de la definición anterior. Añade que, cuando individuos dentro o fuera de los grupos protegidos tienen la misma puntuación deben tener la misma probabilidad de ser clasificados en la clase positiva, y esta probabilidad debe ser igual a  :

  • Balance for positive class. Un clasificador satisface esta definición si los individuos que constituyen la clase positiva pertenecientes tanto los grupos protegidos como de los no protegidos tienen la misma media de puntuación . Esto quiere decir que la esperanza de la puntuación para los grupos protegidos y los no protegidos con clase real positiva es la misma, satisfaciendo la fórmula:

  • Balance for negative class. Un clasificador satisface esta definición si los individuos que constituyen la clase negativa pertenecientes tanto los grupos protegidos como de los no protegidos tienen la misma media de puntuación . Esto quiere decir que la esperanza de la puntuación para los grupos protegidos y los no protegidos con clase real negativa es la misma, satisfaciendo la fórmula:

Algoritmos

Véase también

Referencias

Related Articles

Wikiwand AI