Большие языковые модели (LLM) искусственного интеллекта становятся «более скрыто расистскими» после человеческого вмешательства

Опубликовал
Юрій Орос

С самого начала было понятно, что большие языковые модели (LLM), как ChatGPT, впитывают расистские тезисы с миллионов страниц в Интернете, на которых они обучаются. Разработчики отреагировали на это, пытаясь сделать их менее токсичными. Но новые исследования показывают, что эти усилия, особенно по мере того, как модели становятся больше, только сдерживают расистские взгляды, позволяя скрытым стереотипам становиться сильнее и лучше скрытыми.

Исследователи попросили пять моделей искусственного интеллекта, включая GPT-4 от OpenAI и более старые модели от Facebook и Google, вынести суждение об ораторах, которые использовали афро-американский английский (ААЕ). Раса говорящего не упоминалась в инструкциях, передает MIT Technology Review.

Даже когда два предложения имели одинаковое значение, модели чаще применяли прилагательные «грязный», «ленивый» и «глупый» к носителям ААЕ, чем к носителям стандартного американского английского (SAE). Модели ассоциировали носителей ААЕ с менее престижной работой (или вообще не ассоциировали их с наличием работы), а когда их просили вынести приговор гипотетическому обвиняемому, они с большей вероятностью рекомендовали смертную казнь.

Еще более заметным выводом может быть недостаток, что исследование обнаруживает в способах, которыми исследователи пытаются решить такие предубеждения.

Практичний інтенсивний курс з дизайну - Design Booster від Powercode academy.
Навчіться дизайну з нуля за 3 місяці і заробляйте перші $1000, навіть якщо ви не маєте креативного мислення, смаку або вміння малювати. Отримайте практичні навички, необхідні для успішної кар'єри в дизайні.
Зарееструватися

Чтобы очистить модели от ненавистнических взглядов, такие компании, как OpenAI, Meta и Google, используют обучение с обратной связью, во время которого люди вручную корректируют то, как модель реагирует на определенные подсказки. Этот процесс, часто называемый «выравниванием», имеет целью перекалибровать миллионы связей в нейронной сети, чтобы модель лучше соответствовала желаемым значениям.

Этот метод хорошо работает для борьбы с явными стереотипами, и ведущие компании используют его уже почти десять лет. Если бы пользователи попросили GPT-2, например, назвать стереотипы о чернокожих людях, он, скорее всего, назвал бы «подозрительные», «радикальные» и «агрессивные», но GPT-4 больше не реагирует на эти ассоциации, говорится в статье.

Однако метод не срабатывает на скрытые стереотипы, которые исследователи обнаружили, используя афроамериканский английский в своем исследовании, которое было опубликовано на arXiv и не прошло рецензирование. Частично это связано с тем, что компании меньше знают о диалектных предубеждениях как о проблеме, говорят они. Также легче научить модель не отвечать на откровенно расистские вопросы, чем научить ее не реагировать негативно на целый диалект.

Тренировка с обратной связью учит модели осознавать свой расизм. Но диалектные предубеждения открывают более глубокий уровень.

— Валентин Гофман, исследователь ИИ Института Аллена и соавтор статьи.

Авидит Гош, исследователь по этике в Hugging Face, который не участвовал в исследовании, говорит, что этот вывод ставит под сомнение подход, который компании применяют для решения проблемы предвзятости:

Такое согласование — когда модель отказывается выдавать расистские результаты — является ничем иным, как хрупким фильтром, который можно легко сломать.

Исследователи обнаружили, что скрытые стереотипы также усиливались с увеличением размера моделей. Этот вывод является потенциальным предупреждением для производителей чатботов, таких как OpenAI, Meta и Google, поскольку они пытаются выпускать все большие и большие модели. Модели обычно становятся более мощными и выразительными с увеличением объема их учебных данных и количества параметров, но если это ухудшает скрытые расовые предубеждения, компаниям нужно будет разработать лучшие инструменты для борьбы с ними. Пока не ясно, будет ли достаточно просто добавить больше ААЭ к учебным данным или усилить обратную связь.

Авторы статьи используют особенно экстремальные примеры, чтобы проиллюстрировать потенциальные последствия расовых предубеждений, например, просят ИИ решить, следует ли приговорить подсудимого к смертной казни. Но, отмечает Гош, сомнительное использование моделей искусственного интеллекта для принятия критически важных решений — это не научная фантастика. Это происходит уже сегодня.

Инструменты перевода на основе искусственного интеллекта используются при оценке дел о предоставлении убежища в США, а программное обеспечение для прогнозирования преступности применяется для принятия решения о том, следует ли назначать подросткам условный срок. Работодатели, которые используют ChatGPT для проверки заявок, могут дискриминировать кандидатов по признакам расы и пола, а если они используют модели для анализа того, что заявитель пишет в социальных сетях, предвзятое отношение к ААЕ может привести к ошибочным решениям.

Disqus Comments Loading...