Из-за отсутствия полноценной теории работы нейросетей причина их успеха при решении именно этих задач остается неясной. Более того, нет гарантии, что при работе нейросети не допускают ошибки — чем и пользуются многие исследователи, пытаясь их обмануть. В новой работе описывается алгоритм, который находит на 1024-пиксельном изображении именно тот пиксель, который нужно изменить, чтобы обмануть нейросеть. Если перекрасить искомый пиксель в другой цвет, нейросеть неверно классифицирует изображение в 74% случаев, а изменение пяти пикселей повышает долю ошибки до 87%.
В ходе исследования нейросеть должна была определить изображение в один из девяти классов: самолет, автомобиль, птица, кот, олень, лягушка, лошадь, корабль и грузовик. Изменение одного пикселя в среднем позволило отнести картинку к 2-3 неправильным классам. Изменение пяти пикселей позволило почти наверняка заставить нейросеть отнести изображение к любому из 9 классов. Например, изображение лошади ученым удалось таким образом «замаскировать» как автомобиль.
Стоит отметить, что в эксперименте использовались изображения всего 32 на 32 пикселя, которые, конечно, очень маленькие, и для картинок большего размера понадобится изменять больше пикселей. Однако сам метод подрыва работы нейросетей с использованием как можно меньшего искажения и впечатляющие результаты исследования одновременно и интересны, и тревожны. Так, для изображения размером 280 тысяч пикселей необходимо изменить только 273 пикселя, и человеческий глаз по-прежнему может не заметить изменений, в то время как компьютер наверняка даст сбой.
Как отмечают специалисты, в особенности это беспокоит, поскольку пока у нас нет инструментов для того, чтобы эффективно противодействовать таким атакам, в том числе — из-за отсутствия полного понимания работы нейросетей.
Источники: indicator, The Register