Компании Open AI и Google создали новый инструмент под названием Activation Atlases для визуализации взаимодействий между нейронами в ИИ-системах. Он позволяет проникнуть в «сознание» машины, чтобы лучше понять внутренние процессы принятия решений искусственным интеллектом, а также выявить их ошибки и недостатки. Activation Atlases построен на методе визуализации возможностей. Он даёт представление о том, что собой представляют скрытые слои нейронных сетей, которые, в свою очередь, делают машинное обучение более доступным и интерпретируемым. Другими словами, с его помощью исследователи могут анализировать работу отдельных алгоритмов, понимая, каким образом они объединяют различные абстрактные элементы для идентификации конкретных объектов.

Activation Atlases наконец поможет ответить на вопрос, что на самом деле видит нейронная сеть. Подобные исследования проводились и раньше, но тогда это было похоже на выявление отдельных букв в визуальном алфавите алгоритмов. Новое исследование уже ближе к целому словарю, оно объясняет, как эти буквы соединяются в слова. Один из авторов работы сравнивает Activation Atlases с микроскопом для нейросетей.

В Open AI считают, что с помощью данной технологии можно обнаружить непредвиденные проблемы в нейронных сетях, например, в местах, где сеть полагается на ложные корреляции при классификации изображений (когда алгоритмы могли попутать темнокожих людей с гориллами), или когда повторное использование функции приводит к странным ошибкам.

Activation Atlases использует известную нейронную сеть под названием GoogLeNet или InceptionV1, которая обучена на изображениях из базы данных ImageNet. Она обрабатывает данные примерно через десять слоёв, состоящих из сотен нейронов. В свою очередь, каждый нейрон активируется в разной степени на разных типах изображений. Исследователи проследили этот процесс и выяснили, какие именно элементы изображений вызывают отклик у системы. Пример работы Activation Atlases можно увидеть здесь.

Источник: The Verge