Нейросети из-за одного измененного пикселя могут увидеть на изображении вместо лошади автомобиль

Ученые японского Университета Кюсю обнаружили, что, заменив всего один пиксель, нейросети, предназначенные для распознавания образов, можно заставить неправильно анализировать изображения. Исследователи назвали этот прием однопиксельной атакой (one pixel attack). По их словам, атака подходит для обмана искусственных нейросетей с большим количеством слоев. Статья с описанием метода опубликована на сервере препринтов arXiv.org.

Отметим, что искусственные нейросети — это компьютерные программы, принцип работы которых в отдельных аспектах напоминает функционирование мозга животных. Они оказались чрезвычайно эффективными при решении задач некоторых классов, например, для классификации данных, аппроксимации функции по набору точек, сжатия информации и некоторых других. В частности, образы на изображениях они могут распознавать наравне с человеком.

Из-за отсутствия полноценной теории работы нейросетей причина их успеха при решении именно этих задач остается неясной. Более того, нет гарантии, что при работе нейросети не допускают ошибки — чем и пользуются многие исследователи, пытаясь их обмануть. В новой работе описывается алгоритм, который находит на 1024-пиксельном изображении именно тот пиксель, который нужно изменить, чтобы обмануть нейросеть. Если перекрасить искомый пиксель в другой цвет, нейросеть неверно классифицирует изображение в 74% случаев, а изменение пяти пикселей повышает долю ошибки до 87%.

В ходе исследования нейросеть должна была определить изображение в один из девяти классов: самолет, автомобиль, птица, кот, олень, лягушка, лошадь, корабль и грузовик. Изменение одного пикселя в среднем позволило отнести картинку к 2-3 неправильным классам. Изменение пяти пикселей позволило почти наверняка заставить нейросеть отнести изображение к любому из 9 классов. Например, изображение лошади ученым удалось таким образом «замаскировать» как автомобиль.

Стоит отметить, что в эксперименте использовались изображения всего 32 на 32 пикселя, которые, конечно, очень маленькие, и для картинок большего размера понадобится изменять больше пикселей. Однако сам метод подрыва работы нейросетей с использованием как можно меньшего искажения и впечатляющие результаты исследования одновременно и интересны, и тревожны. Так, для изображения размером 280 тысяч пикселей необходимо изменить только 273 пикселя, и человеческий глаз по-прежнему может не заметить изменений, в то время как компьютер наверняка даст сбой.

Как отмечают специалисты, в особенности это беспокоит, поскольку пока у нас нет инструментов для того, чтобы эффективно противодействовать таким атакам, в том числе — из-за отсутствия полного понимания работы нейросетей.

Источники: indicator, The Register

Ранее студентам MIT удалось обмануть ИИ Google, заставив думать, что черепаха – это винтовка.

Нейросети из-за одного измененного пикселя могут увидеть на изображении вместо лошади автомобиль

Ваш комментарий (необязательно):