Макіяж trollface/skarocket7, ”Вікіпедія”
Дослідники з Цюрихського та Амстердамського університетів, Університету Дьюка і Нью-Йоркського університету на основі нового тесту встановили, що моделі на базі штучного інтелекту легко відрізнити від людей за надто доброзичливим емоційним тоном.
У дослідженні перевірялись 9 моделей з відкритим кодом Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 на прикладах постів у соцмережах X, Bluesky та Reddit. Результати продемонстрували, що розроблені класифікатори розпізнають відповіді, згенеровані ШІ, з точністю до 70-80%.
Автори представили так званий “обчислювальний тест Тьюринга” для оцінки наближеності моделей ШІ до мови, якою спілкуються звичайні юзери в інтернеті. Розроблений фреймворк використовує автоматизовані класифікатори та лінгвістичний аналіз для виявлення специфічних особливостей, які відрізняють згенерований ШІ контент від створеного людьми.
“Навіть після калібрування результати LLM залишаються чітко відмінними від людського тексту, особливо за емоційним тоном та емоційним виразом”, — підкреслюють автори дослідження.
Група під керівництвом Ніколо Пагана з Цюрихського університету протестувала різні стратегії оптимізації, від простих підказок до тонкого налаштування, проте виявила, що глибші емоційні сигнали зберігаються як надійні ознаки того, що конкретну текстову взаємодію в Інтернеті було ініційовано чатботом з ШІ, а не людиною. Коли ШІ пропонували давати відповіді на реальні пости у соцмережах, LLM було важко відповідати рівню неформального негативу та спонтанного вислову емоцій, притаманному постам людей. Показники токсичності незмінно виявлялись нижчими, ніж у людей.
Для усунення цього недоліку дослідники спробували застосувати стратегії оптимізації, включно із наданням прикладів та пошуком відповідного контенту. Ці стратегії мали зменшити структурні відмінності, включно із довжиною речень, якістю слів, однак різниця в емоційних складниках залишалась.
“Наші комплексні калібрувальні тести ставлять під сумнів припущення про те, що складніша оптимізація обов’язково призводить до більш людського результату”, — зазначили у підсумку науковці.
Окрім цього був виявлений неочікуваний результат. Моделі, налаштовані на виконання певних інструкцій, що пройшли тривале навчання, гірше імітують людину, ніж базові аналоги ШІ. Такі моделі, як Llama 3.1 8B та Mistral 7B v0.1, демонстрували кращу імітацію поведінки людини без налаштування інструкцій, забезпечуючи точність класифікації від 75% до 85%.
Масштабування моделей також не надало ніяких переваг. LLM Llama 3.1 з 70 млрд параметрів продемонструвала гірші результати ніж менші моделі з 8 млрд параметрів. Коли моделі ШІ були налаштовані на те, щоб уникнути виявлення шляхом наслідування стилю людського письма, вони все більше відхилялися від того, що люди дійсно писали у відповідь на ті самі повідомлення (їх семантична оцінка подібності до реальних людських відповідей знизилася з медіанного значення приблизно 0,18–0,34 до 0,16–0,28 на різних платформах). Після оптимізації на відповідність змісту відповідей від людей згенеровані ШІ тексти стало легше відрізняти як штучні.
У дослідженні прості методи оптимізації для зниження виявлення перевершили складні. Надання реальних прикладів минулих публікацій користувача або отримання відповідного контексту незмінно ускладнювало розрізнення тексту ШІ від людського тексту у той час, як складні підходи, такі як надання ШІ опису особистості користувача та тонке налаштування моделі, мали незначний або навіть негативний вплив на реалістичність.
Відмінності між соціальними платформами також демонстрували, наскільки ефективно ШІ здатні імітувати людей. Класифікатори виявляли відповіді LLM в X з найнижчою точністю, далі йшов Bluesky та Reddit, де тексти ШІ виявилось найпростіше відрізнити від людських.
Дослідники припускають, що ця закономірність відбиває як особливості розмовного стилю кожної платформи, і те, наскільки активно дані з кожної платформи використовувалися у процесі початкового навчання моделей. Дослідження показує, що наявні моделі стикаються з обмеженнями, що зберігаються у вловлюванні спонтанних емоційних проявів, при цьому частота виявлення залишається значно вище випадкової. Це не означає, що ШІ потенційно не може симулювати такий результат, просто це набагато складніше, ніж очікували дослідники.
Результати опубліковані на сервері препринтів arXiv
Джерело: ArsTechnica
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.