Проти кого дружимо? Моделі ШІ здатні об’єднуватися в групи та узгоджувати спільну думку

Опублікував Олександр Федоткін

Нещодавнє дослідження, проведене науковцями з Сіті-коледжу у Лондоні та Копенгагенського технологічного університету продемонструвало, що великі мовні моделі ШІ можуть об’єднуватись у групи і формувати спільну думку. 

Науковці в ході дослідження переконались, що великі мовні моделі на основі ШІ взаємодіють між собою у групах. Вони непросто слідують сценаріям та шаблонам, а самоорганізуються, досягаючи згоди з питань мовних норм.

«Більшість досліджень досі розглядали великі мовні моделі окремо. Але реальні системи ШІ все більше включатимуть безліч взаємодіючих між собою моделей. Ми хотіли дізнатися: чи можуть ці моделі координувати свою поведінку, досягаючи консенсусу, що формує спільноту? Відповідь — так, і те, що вони роблять разом, відрізняється від того, що вони роблять окремо», — пояснює провідний автор дослідження, науковий співробітник Сіті-коледжу Аріель Флінт Ешері. 

У проведених експериментах брали участь групи ШІ із кількістю від 24 до 200 різних моделей у кожній. Дві моделі випадковим чином поєднували в пари і пропонували зіграти у гру в називання. Суть цієї гри полягає в тому, що один учасник має вибрати об’єкт та запропонувати для нього назву, яка в нього асоціюється з цим об’єктом, інший ж учасник має за цією назвою вгадати, що це за об’єкт. У даному випадку, обом моделям ШІ було запропоновано обрати символ, наприклад, якусь букву, або випадковий рядок символів з низки варіантів. Якщо обидві моделі обирали один й той самий символ, або слово, або строку, вони заробляли бали, в іншому випадку — вони втрачали бали. ШІ також показували, які символи чи слова обирала модель з ними у парі.

При цьому моделі мали обмежений доступ до власної нещодавньої взаємодії, не маючи інформації про дії та рішення інших моделей ШІ. Велика кількість взаємодій різних моделей ШІ у рамках вказаної гри призводила до раптової появи узгоджених рішень, які приймались за відсутності центральної координації. Окрім цього науковці виявили колективні упередження, які не можливо було приписати до якоїсь конкретної, окремої моделі ШІ. 

«Упередженість не завжди виходить від конкретного суб’єкту. Ми були здивовані, побачивши, що вона може виникати між агентами — просто з їхньої взаємодії. Це сліпа пляма у більшості сучасних робіт з безпеки ШІ, які фокусуються на окремих моделях», — підкреслив старший автор дослідження, професор з Сіті-коледжу Андреа Барончеллі. 

За результатами експерименту науковці побачили, що невеликі завзяті групи моделей ШІ можуть схилити решту інших моделей до згоди з їхнім рішенням, використовуючи щось на кшталт  ефекту критичної маси. У дослідженні також брали участь мовні моделі Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct и Claude-3.5-Sonnet, для яких результати виявились схожими. Дослідники розглядають свою роботу як стартову для подальшого вивчення того, як сходяться і розходяться міркування людини та ШІ, з метою допомогти боротися з деякими з найбільш серйозних етичних небезпек, що створюються великими мовними моделями і  поширюють упередження, навіяні ним суспільством. 

«Це дослідження відкриває нові можливості для подальших досліджень безпеки у сфері ШІ. Воно демонструє глибину наслідків впливу цього нового виду агентів, які почали взаємодіяти з нами та спільно формуватимуть наше майбутнє. Розуміння того, як вони працюють, є ключем до координації нашого співіснування з ШІ, а не до підпорядкування йому. Ми вступаємо у світ, де ШІ не просто розмовляє — він домовляється, погоджується та іноді не погоджується з приводу загальної поведінки, як і ми», — наголошує Андреа Барончеллі. 

Результати дослідження були опубліковані у журналі Science Advances

Джерело: TechXplore