Depositphotos
Японские исследователи из Университета Осаки обнаружили способность генеративных моделей искусственного интеллекта Vision Transformers (ViT) спонтанно развивать механизмы визуальной обработки информации, подобной человеческой.
В новом исследовании ученые продемонстрировали, что правильный метод обучения позволяет ИИ самостоятельно воссоздать механизмы визуальной обработки, подобные человеческим. Исследователи сравнили данные отслеживания движений глаз человека и модели визуальной обработки, сформированные ViT. Модели ИИ обучались с помощью специального метода DINO без использования фиксированных фильтров для анализа изображений.
Обученные с помощью DINO модели ViT продемонстрировали визуальную обработку информации, близкую к тому, как взрослые люди просматривают видеоклипы. Между тем модели, которые обучались с использованием фиксированных фильтров и алгоритмов, продемонстрировали неестественную визуальную обработку.
«Наши модели не просто случайно обращали внимание на визуальные сцены, они спонтанно развивали специализированные функции. Одна подгруппа моделей последовательно фокусировалась на лицах, другая фиксировала контуры целых фигур, а третья преимущественно обращала внимание на фоновые черты. Это точно отражает то, как зрительные системы человека сегментируют и интерпретируют сцены», — объясняет ведущий автор исследования Такуто Ямамото.
Дальнейший тщательный анализ подтвердил, что способности, которые приблизили визуальную обработку моделями ИИ к человеческой, возникли естественным образом по результатам обучения методом DINO. Эти модели визуальной обработки были как качественно схожи со взглядом человека, так и количественно соответствовали установленным данным отслеживания глаз, особенно в сценах с участием людей.
«Этот результат замечателен тем, что этим моделям никогда не говорили, что такое лицо. Тем не менее, они научились расставлять приоритеты в отношении лиц, вероятно, потому, что это максимизировало информацию, получаемую из окружающей среды. Это убедительная демонстрация того, что самоконтролируемое обучение может уловить что-то фундаментальное в том, как интеллектуальные системы, включая людей, учатся в мире», — отмечает старший автор исследования Сигеру Китадзава.
Результаты исследования были опубликованы в журнале Neural Networks
Источник: TechXplore