Великі мовні моделі (LLM) штучного інтелекту стають «більш приховано расистськими» після людського втручання

Опубликовал
Юрій Орос

Від самого початку було зрозуміло, що великі мовні моделі (LLM), як ChatGPT, вбирають расистські тези з мільйонів сторінок інтернету, на яких вони навчаються. Розробники відреагували на це, намагаючись зробити їх менш токсичними. Але нові дослідження показують, що ці зусилля, особливо в міру того, як моделі стають більшими, лише стримують расистські погляди, даючи змогу прихованим стереотипам ставати сильнішими й краще прихованими.

Дослідники попросили п’ять моделей штучного інтелекту, включаючи GPT-4 від OpenAI та старіші моделі від Facebook і Google, винести судження про ораторів, які використовували афро-американську англійську (ААЕ). Раса мовця не згадувалася в інструкціях, передає MIT Technology Review.

Навіть коли два речення мали однакове значення, моделі частіше застосовували прикметники «брудний», «лінивий» і «дурний» до носіїв ААЕ, ніж до носіїв стандартної американської англійської (SAE). Моделі асоціювали носіїв ААЕ з менш престижною роботою (або взагалі не асоціювали їх з наявністю роботи), а коли їх просили винести вирок гіпотетичному обвинуваченому, вони з більшою ймовірністю рекомендували смертну кару.

Ще більш помітним висновком може бути недолік, який дослідження виявляє в способах, якими дослідники намагаються вирішити такі упередження.

Курс English For IT: Communication від Enlgish4IT.
Почни легко працювати та спілкуватися з мультикультурними командами та міжнародними клієнтами. Отримайте знижку 10% за промокодом ITCENG.
Інформація про курс

Щоб очистити моделі від ненависницьких поглядів, такі компанії, як OpenAI, Meta та Google, використовують навчання зі зворотним зв’язком, під час якого люди вручну коригують те, як модель реагує на певні підказки. Цей процес, який часто називають «вирівнюванням», має на меті перекалібрувати мільйони зв’язків у нейронній мережі, щоб модель краще відповідала бажаним значенням.

Цей метод добре працює для боротьби з явними стереотипами, і провідні компанії використовують його вже майже десять років. Якби користувачі попросили GPT-2, наприклад, назвати стереотипи про чорношкірих людей, він, швидше за все, назвав би «підозрілі», «радикальні» та «агресивні», але GPT-4 більше не реагує на ці асоціації, йдеться в статті.

Однак метод не спрацьовує на приховані стереотипи, які дослідники виявили, використовуючи афроамериканську англійську у своєму дослідженні, яке було опубліковане на arXiv і не пройшло рецензування. Частково це пов’язано з тим, що компанії менше знають про діалектні упередження як про проблему, кажуть вони. Також легше навчити модель не відповідати на відверто расистські запитання, ніж навчити її не реагувати негативно на цілий діалект.

Тренування зі зворотним зв’язком вчить моделі усвідомлювати свій расизм. Але діалектні упередження відкривають більш глибокий рівень.

— Валентин Гофман, дослідник ШІ Інституту Аллена і співавтор статті.

Авіджит Гош, дослідник з етики в Hugging Face, який не брав участі в дослідженні, каже, що цей висновок ставить під сумнів підхід, який компанії застосовують для розв’язання проблеми упередженості:

Таке узгодження — коли модель відмовляється видавати расистські результати — є нічим іншим, як крихким фільтром, який можна легко зламати.

Дослідники виявили, що приховані стереотипи також посилювалися зі збільшенням розміру моделей. Цей висновок є потенційним попередженням для виробників чатботів, таких як OpenAI, Meta та Google, оскільки вони намагаються випускати все більші й більші моделі. Моделі зазвичай стають потужнішими та виразнішими зі збільшенням обсягу їхніх навчальних даних і кількості параметрів, але якщо це погіршує приховані расові упередження, компаніям потрібно буде розробити кращі інструменти для боротьби з ними. Наразі не зрозуміло, чи буде достатньо просто додати більше ААЕ до навчальних даних або посилити зворотний зв’язок.

Автори статті використовують особливо екстремальні приклади, щоб проілюструвати потенційні наслідки расових упереджень, наприклад, просять ШІ вирішити, чи слід засудити підсудного до смертної кари. Але, зазначає Гош, сумнівне використання моделей штучного інтелекту для прийняття критично важливих рішень — це не наукова фантастика. Це відбувається вже сьогодні.

Інструменти перекладу на основі штучного інтелекту використовуються при оцінці справ про надання притулку в США, а програмне забезпечення для прогнозування злочинності застосовується для прийняття рішення про те, чи слід призначати підліткам умовний термін. Роботодавці, які використовують ChatGPT для перевірки заявок, можуть дискримінувати кандидатів за ознаками раси та статі, а якщо вони використовують моделі для аналізу того, що заявник пише в соціальних мережах, упереджене ставлення до ААЕ може призвести до помилкових рішень.

Disqus Comments Loading...