Будущее автономных авто под угрозой — модели ИИ оказались социопатами

Опубликовал Олександр Федоткін

Исследование, проведенное учеными из Университета Джонса Хопкинса, продемонстрировало, что люди превосходят ИИ в точном описании и интерпретации социального взаимодействия в динамических условиях.

Отмечается, что это имеет решающее значение для таких технологий, как беспилотные транспортные средства и роботы-помощники, которые в значительной степени ориентируются на системы искусственного интеллекта для безопасной навигации в реальных условиях. Авторы исследования подчеркивают, что существующие модели ИИ имеют проблемы с пониманием нюансов социальной динамики и невербальных сигналов, необходимых для эффективного взаимодействия с людьми. Результаты исследования указывают на то, что эти ограничения могут быть вызваны самой структурой современных моделей ИИ.

«Например, ИИ в беспилотном автомобиле должен распознавать намерения, цели и действия водителей и пешеходов. Вы бы хотели, чтобы он знал, в какую сторону собирается пойти пешеход, разговаривают ли два человека, собираются ли они перейти улицу. Всякий раз, когда вы хотите, чтобы ИИ взаимодействовал с людьми, вы хотите, чтобы он мог распознавать, что делают люди. Я думаю, это проливает свет на тот факт, что эти системы не могут этого делать прямо сейчас», — объясняет ведущий автор исследования, доцент кафедры когнитивных наук в Университете Джонса Хопкинса, Лейла Исик. 

Чтобы выяснить, насколько модели ИИ близки к человеческому восприятию, ученые заставили участников исследования просмотреть короткие трехсекундные видеоролики, в которых люди совместно и самостоятельно выполняли различные задачи, демонстрируя различные аспекты социального взаимодействия. Участников исследования попросили оценить важные для понимания социального взаимодействия характеристики по шкале от 1 до 5.

После этого исследователи использовали более 350 крупных языковых моделей, а также генеративные модели ИИ, попросив их предсказать, как люди будут оценивать короткие видео и как они на них отреагируют. Кроме этого большие языковые модели также попросили оценить короткие субтитры, написанные человеком к этим видео.

Большинство людей, участвовавших в исследовании, достигли согласия друг с другом по всем вопросам. Однако этого не произошло в случае с моделями ИИ. Модели, предназначенные для генерации видео, не смогли составить точное описание того, что делают люди на видео. Даже модели для генерации изображений, которые должны были проанализировать серию статических кадров, не смогли полностью предсказать, общались ли между собой люди на видео или нет. Речевые модели лучше предсказывали поведение человека, тогда как видеомодели лучше предсказывали нейронную активность мозга.

«Недостаточно просто увидеть изображение и распознать объекты и лица. Это был первый шаг, который продвинул нас далеко вперед в развитии ИИ. Но реальная жизнь не статична. Нам нужен ИИ, который будет понимать то, что происходит перед ним. Понимание отношений, контекста и динамики социального взаимодействия — это следующий шаг, и это исследование предполагает, что в разработке моделей ИИ может быть слепое пятно», — отмечает соавтор исследования, аспирантка Кэти Гарсия.

По мнению исследователей, такая ситуация сложилась из-за того, что нейронные сети ИИ были созданы на базе тех частей человеческого мозга, которые занимаются обработкой статических изображений. Они значительно отличаются от областей мозга, которые обрабатывают динамическое социальное взаимодействие.

Ученые пришли к выводу, что пока ни одна модель ИИ не способна адекватно реагировать на человеческое поведение в социальной динамической среде. Исследователи отмечают, что имеющиеся модели ИИ не имеют какого-то фундаментального аспекта, который позволяет человеческому мозгу безошибочно и быстро интерпретировать аспекты динамического социального взаимодействия.

Источник: SkiTechDaily