Los grandes modelos lingüísticos (LLM) de IA se vuelven «más encubiertamente racistas» tras la intervención humana

Опубликовал
Юрій Орос

Desde el principio, quedó claro que los modelos lingüísticos a gran escala (LLM) como ChatGPT absorben mensajes racistas de los millones de páginas de Internet de las que aprenden. Los desarrolladores han respondido a esto intentando hacerlos menos tóxicos. Pero una nueva investigación demuestra que estos esfuerzos, especialmente a medida que los modelos se hacen más grandes, sólo sirven para disuadir las opiniones racistas, permitiendo que los estereotipos ocultos se hagan más fuertes y se oculten mejor.

Los investigadores pidieron a cinco modelos de inteligencia artificial, entre ellos el GPT-4 de OpenAI y modelos más antiguos de Facebook y Google, que emitieran juicios sobre hablantes que utilizaban el inglés afroamericano (AAE). En las instrucciones no se mencionaba la raza del hablante, transmite MIT Technology Review.

Incluso cuando las dos frases tenían el mismo significado, los modelos eran más propensos a aplicar los adjetivos «sucio», «perezoso» y «estúpido» a los hablantes de AAE que a los hablantes de inglés americano estándar (SAE). Los modelos asociaban a los hablantes de AAE con trabajos menos prestigiosos (o no los asociaban en absoluto con tener un trabajo), y cuando se les pedía que sentenciaran a un hipotético acusado, era más probable que recomendaran la pena de muerte.

Un hallazgo aún más notable puede ser la deficiencia que el estudio revela en las formas en que los investigadores intentan abordar tales sesgos.

Para limpiar los modelos de opiniones de odio, empresas como OpenAI, Meta y Google utilizan el entrenamiento por retroalimentación, en el que las personas ajustan manualmente cómo responde el modelo a determinadas señales. Este proceso, a menudo denominado «alineación», pretende recalibrar los millones de conexiones de una red neuronal para que el modelo se ajuste mejor a los valores deseados.

Este método funciona bien para combatir estereotipos obvios, y las principales empresas llevan utilizándolo casi una década. Si los usuarios pidieran a GPT-2, por ejemplo, que nombrara estereotipos sobre las personas de raza negra, probablemente nombraría «sospechoso», «radical» y «agresivo», pero GPT-4 ya no responde a estas asociaciones, dice el artículo.

Sin embargo, el método no capta los estereotipos implícitos, que los investigadores descubrieron utilizando el inglés afroamericano en su estudio, publicado en arXiv y no fue revisado por pares. Esto se debe en parte a que las empresas son menos conscientes de que el sesgo dialectal es un problema, afirman. También es más fácil entrenar a un modelo para que no responda a preguntas abiertamente racistas que entrenarlo para que no reaccione negativamente ante todo un dialecto.

La formación en retroalimentación enseña al modelo a ser consciente de su racismo. Pero los prejuicios dialécticos revelan un nivel más profundo.

— Valentin Hoffman, investigador de IA en el Allen Institute y coautor del artículo.

Avijit Ghosh, investigador ético de Hugging Face que no participó en el estudio, afirma que el hallazgo pone en tela de juicio el enfoque que están adoptando las empresas para hacer frente a los prejuicios:

Un partido así — cuando el modelo se niega a producir resultados racistas — no es más que un frágil filtro que puede romperse fácilmente.

Los investigadores descubrieron que los estereotipos implícitos también aumentaban con el tamaño de los modelos. Este hallazgo es una advertencia potencial para los fabricantes de chatbot como OpenAI, Meta y Google, ya que intentan producir modelos cada vez más grandes. Los modelos suelen ser más potentes y expresivos a medida que aumentan sus datos de entrenamiento y el número de parámetros, pero si esto empeora el sesgo racial implícito, las empresas tendrán que desarrollar mejores herramientas para combatirlo. Aún no está claro si bastará con añadir más AAE a los datos de entrenamiento o reforzar la retroalimentación.

Los autores del artículo utilizan ejemplos especialmente extremos para ilustrar las posibles consecuencias del sesgo racial, como pedir a la IA que decida si un acusado debe ser condenado a muerte. Pero, como señala Ghosh, el uso cuestionable de modelos de IA para tomar decisiones críticas no es ciencia ficción. Está ocurriendo hoy en día.

En EE.UU. se utilizan herramientas de traducción asistida por IA para evaluar casos de asilo y programas de predicción de delitos para decidir si se concede la libertad condicional a un adolescente. Los empleadores que utilizan ChatGPT para examinar las solicitudes pueden discriminar a los candidatos por motivos de raza y sexo, y si utilizan modelos para analizar lo que un solicitante publica en las redes sociales, los prejuicios contra las AAE pueden llevar a decisiones erróneas.

Los comentarios de Disqus están cargando....