Иллюстрация: Jeff Vinnick / Getty Images
В рамках гранд-финала чемпионата по игре Dota 2 – The International 2018 – компьютерная команда из пяти ботов OpenAI Five, разработанных некоммерческой организацией OpenAI, выступила против двух профессиональных команд, состоящих из людей, в классическом режиме 5 на 5. Забегая вперед, оба раза машины проиграли людям.
О подготовке ботов OpenAI Five к этому важному матчу против сильнейших игроков в Dota 2 мы рассказывали в начале месяца. Напомним, в рамках соответствующего проекта исследователи, используя суперкомпьютер (128 тысяч процессорных ядер и 256 видеокарт) и технику машинного обучения с подкреплением reinforcement learning, создали команду из искусственных интеллектов для игры в Dota 2.
Игра Dota 2 намного сложнее, чем шахматы или игра го, в которых ИИ уже давно играет лучше людей – вариантов развития событий так много, что просчитать их все при помощи одной математики попросту невозможно. Единственный вариант здесь – научить ИИ воспринимать игру, как человек, путем накапливания опыта.
Играя друг против друга время, эквивалентное тысячам лет, боты «выяснили» в чем суть игры, выработали различные стратегии и тактики, и всего за несколько месяцев достигли уровня опытных игроков. Еще в мае 2018 года OpenAI Five играли на уровне разработчиков из OpenAI, но уже в июне уровень OpenAI Five подрос до любительских и полупрофессиональных команд, а в августе боты даже обыграли сборную команду профессиональных игроков в Dota 2 в классическом режиме «5 на 5».
Что касается матчей против действующих составов профессиональных команд, в первом матче OpenAI Five сыграли против бразильской команды paiN. Боты проводили хорошо скоординированные атаки в правильные моменты и смогли совершить больше убийств, чем их соперники (в Dota 2 герои возрождаются после убийства). Но их слабой стороной оказалась стратегия: боты реагировали на события, происходящие прямо сейчас, а не занимались долгосрочным планированием. Как рассказала Wired разработчик Сьюзан Жан, работавшая в OpenAI над этим проектом, боты просчитывают последствия своих действий только на 14 минут вперед — у них просто нет механизма, позволяющего «заглянуть» дальше и оценить игру в целом.
Ко второй игре, рассказал The Register сотрудник OpenAI Филип Уольски, разработчики решили изменить систему наград, снизив количество очков, которое боты получали за выполнение неосновных задач — в том числе за убийство врагов и накопление золота. Но этого оказалось недостаточно: в битве против команды из пяти профессиональных игроков из Китая OpenAI Five потерпела второе поражение.
Немаловажно, что OpenAI Five играла в Dota 2 с некоторыми ограничениями на геймплей, которых обычно нет в матчах живых игроков. Это давало ботам фору, но в играх с профессиональными игроками количество ограничений свели к минимуму — и это усложнило жизнь виртуальной команде. Но в целом разработчики остались довольны результатом: они отметили, что у ботов был хороший шанс на победу в первые 20-35 минут игры. Также они обращают внимание, что матчи против сильнейших игроков длились 45 и 51 минуту — то есть не меньше, чем в «живых» играх профессионалов.
В OpenAI не намерены останавливаться и после небольшого отдыха с новыми силами возьмутся за разработку, обещая в будущем избавиться от большинства нынешних ограничений.
Источник: OpenAI, Wired, The Register, meduza