Рубрики Блоги

DeepMind займется проблемой непредвиденного поведения ИИ

Опубликовал Кирилл Иртлач

03.10.2018 16:26

Писатели-фантасты давно задавались вопросом, насколько далеко может зайти ИИ в оптимизации поведения, стараясь достичь поставленной цели. В классическом романе Артура Кларка «2001: Космическая одиссея» искусственный интеллект HAL 9000, пытаясь обеспечить выполнение полученных инструкций, почти полностью уничтожил экипаж корабля. В настоящее время нейросети получили повсеместное распространение, и нежелательная оптимизация из разряда гипотетических проблем перекочевала в разряд реальных.

Исследовательская группа DeepMind опубликовала исследование поведения нейросетей, в котором рассматриваются непредвиденные, потенциально вредоносные действия ИИ. Такое поведение следует отличать от заблуждений (bias), возникающих в процессе обучения, поскольку непредвиденное поведение характеризуется тем, что искусственный интеллект, пытаясь достичь поставленной цели, оптимизирует свои действия неправильным образом.

В качестве примера исследователи DeepMind приводят эксперимент по обучению ИИ игре CoastRunners, представляющей собой гонки на катерах. В процессе тренировки нейросеть обнаружила, что получает больше очков за столкновения с определенными объектами на маршруте, чем за окончание гонки. В результате, она «отказалась» финишировать:

Исследователи DeepMind выделили три аспекта разработки ИИ, которые позволят предотвращать подобное поведение, сделав использование нейросетей безопасным и расширив область их применения:

определение требуемого результата;
устойчивость к воздействиям;
контроль над исполнением.

Определение требуемого результата

По словам ученых, проектирование нейросети происходит в три этапа:

На первом этапе описывается «идеальная спецификация» — желаемый результат, который осознает проектировщик, но который зачастую сложно сформулировать.
В процессе создания ИИ разработчик должен выразить задачу языком, понятным системе. DeepMind называет этот процесс «созданием чертежа». Это второй этап.
Третий этап — непосредственное «поведение», отражающее реальный результат, который выдает система.

В DeepMind отмечают, что нейросети зачастую ведут себя не соответствующем изначальной задаче образом, так как проблема для системы была неправильно сформулирована.

Для большей наглядности исследователи приводят в пример миф о царе Мидасе, получившем возможность попросить у богов исполнения желания. В качестве идеальной спецификации герой мифа хотел материального благосостояния. На этапе «чертежа» он сформулировал это как «хочу, чтобы все, к чему я прикасаюсь, превращалось в золото». Однако на этапе реализации он превратил в золото также пищу и некоторых близких родственников.

Работа над этим аспектом подразумевает приведение «чертежа» в максимальное соответствие с «идеальной спецификацией».

Устойчивость к воздействиям

Еще одна проблема, с которой сталкивается ИИ — неожиданные внешние воздействия. В качестве примера значимой смены окружения команда инженеров приводит робота-уборщика, работавшего в среде без домашних животных, и при появлении кошки пытающегося ее «почистить».

Исследователи научили ИИ избегать лавы. Однако стоило им изменить местоположение лавы, как искусственный интеллект «забыл» обо всем, чему учился, и бросился прямо в нее.

Другая сложность — небезопасное обучение. Так, тот же робот может получить повреждения от удара электрическим током, пытаясь установить лучший вариант чистки подключенной к сети розетки с помощью мокрой швабры.

Контроль над исполнением

Исследователи говорят, что искусственный интеллект представляет собой, по сути, «черный ящик», так как мотивы принимаемых им решений зачастую непрозрачны. Это вызывает недоверие к нейросетям, особенно в свете исследований относительно заблуждений, которым подвержены такие системы.

Чтобы повысить доверие к ИИ, ученые предложили ввести над исполнением задачи контроль, разделяющийся на два момента — мониторинг и управление:

Мониторинг подразумевает пассивное наблюдение, как автоматическое, так и осуществляемое оператором.
Под «управлением» исследователи подразумевают обязательное наличие возможности интерпретирования результатов деятельности программы и прерывания исполнения задачи в случае непредвиденного поведения.

Источник: tproger

Ранее мы писали, что ИИ превратился в черный ящик.