Depositphotos
Недавнее исследование, проведенное учеными из Сити-колледжа в Лондоне и Копенгагенского технологического университета продемонстрировало, что большие языковые модели ИИ могут объединяться в группы и формировать общее мнение.
Ученые в ходе исследования убедились, что большие языковые модели на основе ИИ взаимодействуют между собой в группах. Они непросто следуют сценариям и шаблонам, а самоорганизуются, достигая согласия по вопросам языковых норм.
«Большинство исследований до сих пор рассматривали большие языковые модели по отдельности. Но реальные системы ИИ будут включать множество взаимодействующих между собой моделей. Мы хотели узнать: могут ли эти модели координировать свои действия, достигая консенсуса, формирующего сообщество? Ответ — да, и то, что они делают вместе, отличается от того, что они делают по отдельности», — объясняет ведущий автор исследования, научный сотрудник Сити-колледжа Ариэль Флинт Эшери.
В проведенных экспериментах принимали участие группы ИИ с количеством от 24 до 200 различных моделей в каждой. Две модели случайным образом объединяли в пары и предлагали сыграть в игру в называние. Суть этой игры заключается в том, что один участник должен выбрать объект и предложить для него название, которое у него ассоциируется с этим объектом, другой же участник должен по этому названию угадать, что это за объект. В данном случае, обеим моделям ИИ было предложено выбрать символ, например, какую-то букву, или случайную строку символов из ряда вариантов. Если обе модели выбирали один и тот же символ, или слово, или строку, они зарабатывали баллы, в противном случае — они теряли баллы. ИИ также показывали, какие символы или слова выбирала модель с ними в паре.
При этом модели имели ограниченный доступ к собственному недавнему взаимодействию, не имея информации о действиях и решениях других моделей ИИ. Большое количество взаимодействий различных моделей ИИ в рамках указанной игры приводило к внезапному появлению согласованных решений, которые принимались при отсутствии центральной координации. Кроме этого ученые обнаружили коллективные предубеждения, которые невозможно было приписать какой-то конкретной, отдельной модели ИИ.
«Предвзятость не всегда исходит от конкретного субъекта. Мы были удивлены, увидев, что она может возникать между агентами — просто из их взаимодействия. Это слепое пятно в большинстве современных работ по безопасности ИИ, которые фокусируются на отдельных моделях», — подчеркнул старший автор исследования, профессор из Сити-колледжа Андреа Барончелли.
По результатам эксперимента ученые увидели, что небольшие упорные группы моделей ИИ могут склонить остальные модели к согласию с их решением, используя что-то вроде эффекта критической массы. В исследовании также участвовали языковые модели Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct и Claude-3.5-Sonnet, для которых результаты оказались похожими. Исследователи рассматривают свою работу как стартовую для дальнейшего изучения того, как сходятся и расходятся суждения человека и ИИ, с целью помочь бороться с некоторыми из наиболее серьезных этических опасностей, создаваемых большими языковыми моделями и распространяющими предубеждения, навеянные им обществом.
«Это исследование открывает новые возможности для дальнейших исследований безопасности в сфере ИИ. Оно демонстрирует глубину последствий влияния этого нового вида агентов, которые начали взаимодействовать с нами и совместно будут формировать наше будущее. Понимание того, как они работают, является ключом к координации нашего сосуществования с ИИ, а не к подчинению ему. Мы вступаем в мир, где ИИ не просто разговаривает — он договаривается, соглашается и иногда не соглашается по поводу общего поведения, как и мы», — отмечает Андреа Барончелли
Результаты исследования были опубликованы в журнале Science Advances
Источник: TechXplore