ШІ навчився проходити тест Тюрінга краще за людей / Google Gemini
Исследователи из Калифорнийского университета в Сан-Диего заявили, что современные модели искусственного интеллекта уже способны успешно проходить тест Тьюринга во время живого общения. Более того, в новом эксперименте модель GPT-4.5 чаще казалась людям «настоящим человеком», чем реальные участники разговора.
Во время исследования ученые использовали более сложную версию классического теста Тьюринга. Судьи одновременно общались в чате с человеком и ИИ-моделью, не зная, кто есть кто. После короткой живой беседы им нужно было определить, где реальный человек, а где программа.
Результат оказался довольно неожиданным. GPT-4.5 в 73% случаев убеждала собеседников, что по ту сторону экрана сидит человек. Другая модель — LLaMa-3.1-405B — также показала высокий результат и получила «человеческий» статус в 56% случаев.
В тестах принимали участие GPT-4.5, GPT-4o, LLaMa-3.1-405B и даже старый чат-бот ELIZA 1960-х годов. Лучший результат показала GPT-4.5 с так называемым «persona prompt» – специальной настройкой поведения модели. В таком режиме чат-бот вел себя как интровертный молодой пользователь, который хорошо разбирается в интернет-культуре и использует сленг. Именно эта модель смогла пройти тест в 73% случаев, то есть люди чаще выбирали ИИ как «настоящего человека», чем реального собеседника.
Без дополнительной настройки поведения результаты были значительно слабее: GPT-4.5 набрала всего 36%, а LLaMa – 38%. Для сравнения, GPT-4o получила 21%, а ELIZA – 23%.
Исследование охватило более 1000 отдельных разговоров. Участники переписывались в течение 5 минут, а в отдельном тесте – 15 минут. Даже в более длинных беседах некоторые модели сохраняли высокий уровень «человечности», демонстрируя результат до 59%.
Особенно интересно, что модели не использовали голос, видео или любые визуальные элементы. Они работали только через текстовое общение. Для успеха им хватило правильной манеры ответов, социальных сигналов и естественного стиля диалога.
Сам тест Тьюринга существует уже десятки лет. Его создали как способ проверить, может ли машина настолько хорошо имитировать человека в разговоре, чтобы собеседник не заметил разницы. В классическом формате оценщик общается с участниками «вслепую», а затем пытается определить, где человек, а где компьютер.
Исследователи отмечают, что полученные результаты не означают, что ИИ получил сознание, эмоции или самосознание. Модели просто научились очень убедительно воспроизводить человеческое общение во время коротких диалогов. Но именно это уже создает новые риски.
Проблема может проявиться в повседневных сервисах — службах поддержки, соцсетях, приложениях для знакомств, онлайн-обучении или даже политических кампаниях. Во многих случаях люди принимают решение о доверии буквально за несколько сообщений, и теперь чат-боты могут успешно выдавать себя за реальных собеседников.
Авторы исследования считают, что следующим большим вопросом станет обязательная маркировка ИИ в чатах и цифровых сервисах. Если бот уже может «сливаться» с обычным разговором, пользователям нужны четкие сигналы о том, что они общаются именно с программой, а не с человеком.
Фактически исследование показывает новый этап развития генеративного ИИ. Модели еще не «мыслят» как люди, но уже научились очень хорошо имитировать человеческое поведение в реальном общении — и именно это может кардинально изменить онлайн-коммуникацию в ближайшие годы.
В итоге тест Тюринга постепенно превращается не только в проверку возможностей ИИ, но и в тест человеческой способности отличать настоящего человека от алгоритма. И похоже, что этот предел становится все менее заметным.
Источник: digitaltrends
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.