Писатели-фантасты давно задавались вопросом, насколько далеко может зайти ИИ в оптимизации поведения, стараясь достичь поставленной цели. В классическом романе Артура Кларка «2001: Космическая одиссея» искусственный интеллект HAL 9000, пытаясь обеспечить выполнение полученных инструкций, почти полностью уничтожил экипаж корабля. В настоящее время нейросети получили повсеместное распространение, и нежелательная оптимизация из разряда гипотетических проблем перекочевала в разряд реальных.
Исследовательская группа DeepMind опубликовала исследование поведения нейросетей, в котором рассматриваются непредвиденные, потенциально вредоносные действия ИИ. Такое поведение следует отличать от заблуждений (bias), возникающих в процессе обучения, поскольку непредвиденное поведение характеризуется тем, что искусственный интеллект, пытаясь достичь поставленной цели, оптимизирует свои действия неправильным образом.
В качестве примера исследователи DeepMind приводят эксперимент по обучению ИИ игре CoastRunners, представляющей собой гонки на катерах. В процессе тренировки нейросеть обнаружила, что получает больше очков за столкновения с определенными объектами на маршруте, чем за окончание гонки. В результате, она «отказалась» финишировать:
По словам ученых, проектирование нейросети происходит в три этапа:
В DeepMind отмечают, что нейросети зачастую ведут себя не соответствующем изначальной задаче образом, так как проблема для системы была неправильно сформулирована.
Для большей наглядности исследователи приводят в пример миф о царе Мидасе, получившем возможность попросить у богов исполнения желания. В качестве идеальной спецификации герой мифа хотел материального благосостояния. На этапе «чертежа» он сформулировал это как «хочу, чтобы все, к чему я прикасаюсь, превращалось в золото». Однако на этапе реализации он превратил в золото также пищу и некоторых близких родственников.
Работа над этим аспектом подразумевает приведение «чертежа» в максимальное соответствие с «идеальной спецификацией».
Еще одна проблема, с которой сталкивается ИИ — неожиданные внешние воздействия. В качестве примера значимой смены окружения команда инженеров приводит робота-уборщика, работавшего в среде без домашних животных, и при появлении кошки пытающегося ее «почистить».
Другая сложность — небезопасное обучение. Так, тот же робот может получить повреждения от удара электрическим током, пытаясь установить лучший вариант чистки подключенной к сети розетки с помощью мокрой швабры.
Исследователи говорят, что искусственный интеллект представляет собой, по сути, «черный ящик», так как мотивы принимаемых им решений зачастую непрозрачны. Это вызывает недоверие к нейросетям, особенно в свете исследований относительно заблуждений, которым подвержены такие системы.
Чтобы повысить доверие к ИИ, ученые предложили ввести над исполнением задачи контроль, разделяющийся на два момента — мониторинг и управление:
Источник: tproger