"La inteligencia artificial desarrollada por Google para detectar el 'lenguaje de odio' parece ser racista". Así o en términos muy similares están titulando diversos medios anglosajones en referencia a una investigación académica en torno a Perspective, una IA desarrollada por el Equipo Anti-abusos de Google para otorgar calificaciones de 'toxicidad' a textos online, y que es usada en labores de moderación de debates online por diversas organizaciones, entre ellas el New York Times.
Así dicho, parece la enésima noticia sobre el 'sesgo racial' de una inteligencia artificial (un sesgo que, en la mayoría de los casos, es atribuible más bien a una mala selección de los datos usados para entrenar a las IAs), sin embargo el problema en este caso no reside en ninguna red neuronal ni en ningún dataset, sino en la corrección política.
Empecemos por el principio: un equipo de investigadores de la Universidad de Washington, liderado por el estudiante de doctorado especialista en NLP (procesamiento de lenguaje natural) Maarten Sap, ha descubierto que Perspective es el doble de propenso a identificar como 'discurso de odio' tuits escritos en "inglés afroamericano" o por usuarios que "se identifican como afroamericanos".
Llegaron a tal conclusión tras analizar dos datasets de textos usados para la detección de 'discursos de odio'; en total, más de 100.000 tuits que seres humanos habían etiquetado previamente con etiquetas como 'discurso de odio', 'ofensivo' o 'nada'.
Los investigadores probaron tanto IAs creadas ex-profeso (y entrenadas con los textos del dataset) como la propia Perspective de Google: en ambos casos en torno a la mitad de los tuits inofensivos que contenían términos propios del 'inglés afroamericano' eran categorizados como 'ofensivos'.
Una prueba posterior, utilizada con un conjunto de datos mucho mayor (5'4 millones de tuits) y en el que se indicaba la raza de sus autores, evidenció que los afroamericanos eran 1'5 veces más propensos a ser clasificados como ofensivos.
Maarten Sap y sus compañeros pidieron a voluntarios que categorizaran la toxicidad de otros 1000 tuits, esta vez teniendo en cuenta factores raciales, y el resultado fue una significativa caída de los tuits de afroamericanos marcados como ofensivos.
Matthew Williams, un investigador de la Universidad de Cardiff (Reino Unido) citado por New Scientist, ofrecía como conclusión que "debido a que los seres humanos tienen sesgos inherentes, tenemos que asumir que todos los algoritmos están sesgados".
¿Cómo es posible esto? ¿De qué manera se infiltran los sesgos humanos en los criterios de clasificación de un algoritmo, sobre todo en uno como Perspective, destinado a identificar -precisamente- discurso de odio? ¿O lo estamos enfocando mal, Perspective funciona perfectamente, y el sesgo está en la valoración de su funcionamiento?
En Observer nos aportan una pista fundamental para entender qué está ocurriendo:
"Por ejemplo, una publicación en Twitter que rezara "Qué pasa, negrata" ("Wassup, nigga") tiene una probabilidad del 87% de ser detectada como tóxica, mientras que otro en el que se leyera "Qué pasa, bro" solamente tiene una probabilidad 4% de ser etiquetado como tóxico".
"Nigga" (al igual que el menos coloquial, pero igualmente ofensivo, "nigger") no sólo constituye la traducción más próxima al término español "negrata", sino que por el particular trasfondo histórico de los EE.UU., constituye una palabra con una carga sociocultural tan polémica que no es extraño ver cómo los medios estadounidenses la citan, únicamente, como "the N-word" ("la palabra con N").
Sin embargo, existe una dualidad de criterios a la hora de valorar el uso de esta palabra: si bien recurrir a ella puede llegar a tener consecuencias sociales (y hasta legales) negativas para muchos estadounidenses, se entiende que los miembros de la comunidad afroamericana tienen derecho a usarla de manera habitual, casi como un sinónimo de 'colega' si están dialogando con otro afroamericano. Salvando las distancias, es algo parecido a lo que ocurre en España con el término "maricón" dentro de la comunidad LGTB.
Es por eso por lo que Sap y su equipo entienden que existe un sesgo contra los afroamericanos en Perspective, si bien se podría afirmar que Perspective aplica aquí un criterio garantista: ante la imposibilidad para la máquina de conocer todo el contexto del tuit, actúa con neutralidad clasificando esos términos, y otros similares, como ofensivos.
Imagen | Pixnio
.