Noticias Ciencia y espacio 03-13-2024 a las 13:42 comment views icon

Los grandes modelos lingüísticos (LLM) de IA se vuelven «más encubiertamente racistas» tras la intervención humana

author avatar
https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg

Yurii Oros

Redactor de noticias

Los grandes modelos lingüísticos (LLM) de IA se vuelven «más encubiertamente racistas» tras la intervención humana

Desde el principio, quedó claro que los modelos lingüísticos a gran escala (LLM) como ChatGPT absorben mensajes racistas de los millones de páginas de Internet de las que aprenden. Los desarrolladores han respondido a esto intentando hacerlos menos tóxicos. Pero una nueva investigación demuestra que estos esfuerzos, especialmente a medida que los modelos se hacen más grandes, sólo sirven para disuadir las opiniones racistas, permitiendo que los estereotipos ocultos se hagan más fuertes y se oculten mejor.

Los investigadores pidieron a cinco modelos de inteligencia artificial, entre ellos el GPT-4 de OpenAI y modelos más antiguos de Facebook y Google, que emitieran juicios sobre hablantes que utilizaban el inglés afroamericano (AAE). En las instrucciones no se mencionaba la raza del hablante, transmite MIT Technology Review.

Incluso cuando las dos frases tenían el mismo significado, los modelos eran más propensos a aplicar los adjetivos «sucio», «perezoso» y «estúpido» a los hablantes de AAE que a los hablantes de inglés americano estándar (SAE). Los modelos asociaban a los hablantes de AAE con trabajos menos prestigiosos (o no los asociaban en absoluto con tener un trabajo), y cuando se les pedía que sentenciaran a un hipotético acusado, era más probable que recomendaran la pena de muerte.

Los grandes modelos lingüísticos (LLM) de IA se vuelven «más encubiertamente racistas» tras la intervención humana

Un hallazgo aún más notable puede ser la deficiencia que el estudio revela en las formas en que los investigadores intentan abordar tales sesgos.

Para limpiar los modelos de opiniones de odio, empresas como OpenAI, Meta y Google utilizan el entrenamiento por retroalimentación, en el que las personas ajustan manualmente cómo responde el modelo a determinadas señales. Este proceso, a menudo denominado «alineación», pretende recalibrar los millones de conexiones de una red neuronal para que el modelo se ajuste mejor a los valores deseados.

Este método funciona bien para combatir estereotipos obvios, y las principales empresas llevan utilizándolo casi una década. Si los usuarios pidieran a GPT-2, por ejemplo, que nombrara estereotipos sobre las personas de raza negra, probablemente nombraría «sospechoso», «radical» y «agresivo», pero GPT-4 ya no responde a estas asociaciones, dice el artículo.

Sin embargo, el método no capta los estereotipos implícitos, que los investigadores descubrieron utilizando el inglés afroamericano en su estudio, publicado en arXiv y no fue revisado por pares. Esto se debe en parte a que las empresas son menos conscientes de que el sesgo dialectal es un problema, afirman. También es más fácil entrenar a un modelo para que no responda a preguntas abiertamente racistas que entrenarlo para que no reaccione negativamente ante todo un dialecto.

La formación en retroalimentación enseña al modelo a ser consciente de su racismo. Pero los prejuicios dialécticos revelan un nivel más profundo.

— Valentin Hoffman, investigador de IA en el Allen Institute y coautor del artículo.

Avijit Ghosh, investigador ético de Hugging Face que no participó en el estudio, afirma que el hallazgo pone en tela de juicio el enfoque que están adoptando las empresas para hacer frente a los prejuicios:

Un partido así — cuando el modelo se niega a producir resultados racistas — no es más que un frágil filtro que puede romperse fácilmente.

Los investigadores descubrieron que los estereotipos implícitos también aumentaban con el tamaño de los modelos. Este hallazgo es una advertencia potencial para los fabricantes de chatbot como OpenAI, Meta y Google, ya que intentan producir modelos cada vez más grandes. Los modelos suelen ser más potentes y expresivos a medida que aumentan sus datos de entrenamiento y el número de parámetros, pero si esto empeora el sesgo racial implícito, las empresas tendrán que desarrollar mejores herramientas para combatirlo. Aún no está claro si bastará con añadir más AAE a los datos de entrenamiento o reforzar la retroalimentación.


Loading comments...

Spelling error report

The following text will be sent to our editors: