Специалисты достаточно известной компании DeepMind, которая недавно принялась изучать моральную и этическую стороны искусственного интеллекта, разработали новую, улучшенную версию алгоритма AlphaGo для игры в го. Новая версия алгоритма, получившая приставку Zero к названию, не оставляет людям ни малейших шансов на победу. Дело в том, что она является полностью самообучаемой. То есть, способна выучивать новые стратегии, обходясь без анализа партий, сыгранных человеком. Как сообщается, этот ИИ-самоучка уже разгромил своего предшественника и абсолютного чемпиона AlphaGo, выиграв все 100 партий.

Как и старая версия AlphaGo, новая AlphaGo Zero основывается на искусственных нейронных сетях, но запрограммирована немного иначе. Оригинальная AlphaGo была запрограммирована обучаться мастерству игры в го путем приобретения опыта от игр с игроками-людьми. Согласно прошлогодней публикации в Nature, AlphaGo в действительности состоял из двух нейронных сетей: «оценочной сети», постоянно отслеживающей изменения на доске и «стратегической сети», ответственной за выбор следующего шага. Каждую из сетей на протяжении нескольких месяцев тренировали на тысячах партий и миллионах ходов, сделанных профессиональными игроками в го.

Новая и более совершенная версия AlphaGo Zero в свою очередь состоит только из одной нейронной сети, которой объяснили лишь, что из себя представляет главный атрибут игры – доска. Все остальное об игре, включая правила, она выучила самостоятельно. Вместо того, чтобы обучаться партиях, сыгранных людьми, AlphaGo Zero обучалась на своих собственных. Она начинала с бессмысленных ходов, но уже после 4,9 млн партий выучила игру настолько досконально, что сумела в сухую обыграть оригинальный AlphaGo, одержав 100 уверенных побед.

Вне всяких сомнений, это большое достижение, хотя до полноценного ИИ, как во многих научно-фантастических фильмах, AlphaGo Zero еще очень далеко. При всей своей продвинутости и сложности AlphaGo Zero не сможет приготовить кофе или обсудить погоду, но, как говорится, Рим тоже не за один день строился. И это лишь начало.

В DeepMind отмечают, что новый подход позволил избавить искусственный интеллект от ограничений человеческого разума. Также в компании заявляют, что настольными играми применение новой самообучаемой нейронной сети, используемой для создания AlphaGo Zero, не ограничится.

«Мы полагаем, что этот подход может быть применен для решения более широкого круга комплексных задач, которые имеют сходные свойства с игрой типа Go, вроде задач планирования или ситуациях, в которых необходимо предпринять ряд действий в правильной последовательности (укладка белка или сокращение потребления энергии)», – отметил представитель DeepMind.