Рубрики НовостиИИ

ИИ превращает сканы мозга в описания мыслей

Опубликовал Олександр Федоткін

Японские исследователи из NTT Communication Science Laboratories разработали новый метод, который позволяет искусственному интеллекту превращать сканы мозга в текст.

Новый алгоритм, разработанный под руководством Томоясу Хорикавы, использует сочетание нейровизуализации с возможностями искусственного интеллекта для создания текстовых описаний того, что люди себе представляют или о чем думают в голове. 

Это пока не чтение мыслей, однако демонстрация, насколько ИИ может расшифровывать нейронные паттерны в мозге. Для создания этого алгоритма Хорикаве и его коллегам пришлось объединить сложную структуру человеческого мышления с семантической сетью, которую ИИ используют для понимания слов

Исследователи научили ИИ связывать сканы мозга с видеосубтитрами, а затем использовали его для преобразования новой активности мозга — будь то просмотр или воспоминание сцен — в предложения с помощью итеративного процесса замены слов, управляемого LLM/Nature

Каждый из шести добровольцев провел почти 17 часов внутри аппарата МРТ, просматривая 2 тыс. 180 коротких видео без звука. Ролики включали игривых животных, абстрактную анимацию с глубоким эмоциональным воздействием и повседневные вещи. Каждое видео длилось по несколько секунд, однако вместе они предоставили широкий набор данных о том, как мозг обрабатывает визуальный опыт.

Под каждое видео исследователи подобрали 20 субтитров, написанных онлайн-добровольцами. Субтитры представляли собой цельные предложения, которые описывали, что происходит в каждом ролике. Субтитры были очищены с помощью ChatGPT. Затем каждое предложение было преобразовано в сложную числовую подпись — точку в большом многовекторном семантическом пространстве — с помощью языковой модели DeBERTa.

Далее ученые сравнивали активность мозга, записанную во время каждого видео, с этими семантическими сигнатурами. То есть, они научили ИИ распознавать, какие нейронные паттерны соответствуют определенным типам содержания. Вместо использования глубоких, непрозрачных нейросетей исследователи использовали более прозрачную линейную модель. Эта модель могла показать, какие области мозга отвечают за те или иные виды семантической информации.

Как только ИИ научился предсказывать «вектор содержания» наблюдаемого объекта, он должен был научиться превращать эти абстрактные представления в текст. Ученые использовали ИИ модель RoBERTa для пошаговой генерации слов. Система начинала с бессмысленного заполнителя и более ста итераций заполняла пробелы, проверяла альтернативные предложения и сохраняла тот вариант, который лучше всего соответствовал расшифрованному значению. 

Первые попытки казались бессмысленными. Однако каждое усовершенствование делало предложения более содержательными, в конце концов, ИИ предоставил полное связное описание происходящего. В тестах ИИ сопоставлял конкретные видео со сгенерированным описанием примерно в половине случаев, даже при наличии около 100 вариантов.

Исследователи также сделали удивительное открытие, изменив порядок слов в сгенерированных субтитрах. Качество и точность резко упали, что показало, что ИИ не просто улавливал ключевые слова, но и нечто более глубокое — возможно, саму структуру смысла, взаимосвязи между объектами, действиями и контекстом. 

Природа

Позже исследователи предложили добровольцам вспомнить просмотренные видео. Для расшифровки этих воспоминаний использовалась та же модель, обученная лишь на данных восприятия. И она работала. 

Даже когда добровольцы просто представляли себе сцены из видео, ИИ генерировал точные предложения с описаниями, иногда определяя необходимый фрагмент из сотни других. Это натолкнуло ученых на важную идею: мозг использует похожие представления для зрительного восприятия и визуального запоминания, и эти представления можно перевести в текст, без задействования традиционных «языковых зон» мозга. 

Когда исследователи намеренно исключали области, обычно связанные с обработкой речи, система продолжала генерировать связный текст. Это свидетельствует, что структурированное значение — то, что ученые называют «семантическим представлением» — широко распределено во всем мозге, а не ограничивается зонами, ответственными за речь.

Открытие имеет важное значение для людей, лишенных возможности разговаривать. Люди с афазией или нейродегенеративными заболеваниями, влияющими на речь, в принципе могли бы использовать такие системы для общения с помощью невербальной активности мозга.

«Чтобы точно охарактеризовать наш основной вклад, важно сформулировать наш метод как интерпретативный интерфейс, а не буквальную реконструкцию ментального содержания», — отмечают авторы исследования.

Они стараются избегать красноречивых обещаний. Технология далеко не устройство для чтения мыслей. Она требует многочасового сбора персонализированных данных каждого участника, четких МРТ-сканов и очень узкого набора визуальных стимулов. Генерируемые ею предложения фильтруются из-за предвзятости англоязычных субтитров и моделей, используемых для их обучения. Изменение языковой модели или набора данных может существенно изменить результат. По словам Томоясу Хорикавы, система не воспроизводит мысли напрямую. Вместо этого она транслирует их через уровни интерпретации ИИ. 

Результаты опубликованы в журнале Nature

Источник: ZME Science

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.