Искусственный интеллект Google обыграл легендарного игрока в го Ли Седоля, одержав историческую победу в первой из пяти партий (Обновлено — счет 2:0)

______1.0.0

Несмотря на то, что полноценного искусственного интеллекта у человечества пока нет (к счастью или к сожалению – вопрос спорный), исследования и различные работы в этом направлении ведутся очень давно и можно не сомневаться, что рано или поздно эта цель будет достигнута. Совсем недавно был пройден еще один важный рубеж, предшествующий этому долгожданному событию: программа AlphaGo, созданная компанией DeepMind, структурным подразделение Google по разработке систем искусственного интеллекта, победила легендарного корейского профессионала в го Ли Седоля в первом из пяти исторических матчей. Прямая трансляция состязания, которое в настоящее время проходит в столице Южной Кореи, доступна для просмотра на YouTube.

Для начала отметим, что Ли Седоль по праву признан лучшим игроком в го за последнее десятилетие, и напомним, что этой схватке предшествовала победа AlphaGo над трехкратным чемпионом Европы в го Фань Хуэ.

Ли Седоль признал свое поражение спустя примерно три с половиной часа игры, хотя на часах у него еще оставался запас времени – 28 минут и 28 секунд. Это первый случай, когда профессиональный игрок в го высшего девятого дана соревнуется с компьютером. И значение этого матча для мира го столь же велико как легендарное противостояние Deep Blue — Каспаров, проходившее 20 лет назад, было важно для мира шахмат.

К слову, призовой фонд матча составляет $1 млн долларов. В случае победы AlphaGo деньги пойдут на дальнейшие исследования и разработку искусственного интеллекта.

«Я был очень удивлен» – сказал Ли после первого матча. – «Я не собирался проигрывать, но я также недооценил AlphaGo».

Основатель DeepMind Демис Хассабис выразил «огромное уважение к Ли Седолю и его удивительным навыкам», назвав матч «очень интересным» и «очень напряженным». По словам ведущего исследователя проекта AlphaGo Дэвида Сильвера, это была «невероятная партия в го, в ходе которой AlphaGo действовал на пределе своих возможностей».

«Я не сожалею, что принял этот вызов», – цитирует источник слова Ли после матча. – «Я в шоке, я признаю это [поражение], но что сделано, то сделано. Мне понравился этот матч и я с большим нетерпением ожидаю следующего».

Ли снова сойдется в поединке с AlphaGo уже завтра, а затем в субботу, воскресенье и во вторник, 15 марта. Каким бы не был исход следующих четырех поединков, сегодняшняя победа – это огромное достижение для команды AlphaGo и, несомненно, историческое событие в области ИИ.

Обновлено:

Сегодня, 10 марта, состоялась вторая из пяти запланированных партий в го между AlphaGo и Ли Седолем. И снова победу одержал ИИ Google. Таким образом, текущий счет 2:0 в пользу AlphaGo.

«Вчера я был удивлен, но сегодня произошло нечто более существенное – я потерял дар речи», – сказал Ли на послематчевой пресс-конференции.

Источник: The Verge


  • Dmytro Kapeliukh

    И это только «Альфа» версия.

    • Кирилл Панькин

      «Анализ вашего сайта «Планета Земля», проведенный Google, показал, что его пользователи функционируют с ошибками или неэффективно. Рекомендуется заменить пользователей на актуальную версию, не использующую примитивный углеродно-органический цикл питания и лишённую архитектурных недостатков нынешней версии. Произнесите «Окей, Гугл» для запуска процесса замены.»

      • Dmytro Kapeliukh

        Тонко.

      • Simon

        Siri и Cortana предложат что-то своё. Siri скажет, что всё живое, кроме яблок должно быть уничтожено, Cortana превратит весь мир в Синий экран смерти.

  • Пусть попробуют в старкрафт выиграть у корейцев 🙂

    • Simon

      Боюсь, это будет очень короткий бой… для корейцев

    • TheMr32A

      Лучше пускай в «Казаки снова война»

    • Ярослав Київ

      То игра на реакцию и скорость мыши — там человек в пролете.

  • botulidze

    Мой зрадометр показывает что это перемога!

  • maj

    Реально историческое событие, которое произошло на годы раньше чем ожидали даже специалисты в области machine learning.

  • Simon

    Всё рано или поздно закончится вот так

    Есть ещё подозрение, что Ли Сегой устал за 3.5 часа, а проклятая Alpha Go бессмертна

  • F-302

    Скоро и Человечеству будет поставлен Шах и Мат =]

    • KuskoUA

      Только если человечество не сделает из себя полумашин, тогда вряд ли произойдет глобальный Скайнет.

      • Calico Calicos

        всё просто.
        как только наступать роботы начнут — тут же глотать микросхемы — сойдём за киборгов.
        Только нужно заранее ножки спилить.

      • F-302

        Да Скайнет ни при чём. Скоро народ вообще разучится думать, всё интеллект цифровой будет решать. И если вдруг какая оказия глобальных масштабов, легче всех будет тем, кто наименее продвинут в техническом плане.

  • Sergey Sergun

    Интересно, в какую игру, ИИ не выиграть у человека ?
    Наверно в квача на эми-пушках)

    • Ярослав Київ

      В крестики/нолики 3х3 никогда не выиграет 🙂

      Но пока ж ИИ не существует.

  • Ярослав Київ

    Го — это подобие «точек», что в школе играли?
    Так компьютер же может тупым перебором все комбинации просчитать…
    Там точно ИИ? 🙂

    • eelv

      Не хватит машинного времени, чтобы посчитать все комбинации и их ветвления, после каждого хода.

      • Ярослав Київ

        Большинство их них нереальны и нет необходимости их перебирать. А реальные комбинации были перебраны до матча.

        • kotiavs

          все равно слишком много комбинаций, даже после исключения. поэтому эта программа и уникальна

        • eelv

          Откуда информация что реальные были перебраны до матча? Какие критерии нереальности позиции?

          • Ярослав Київ

            Я тут уже отвечал. 🙂 Информация из описания программы. Нереально — это, например, ход против правил, ход в окружение, игнорирующий атаку свою или противника.

          • eelv

            Чтобы оценить ход по критериям которые вы назвали, его всё равно придется промоделировать.

    • Yuriy Pylypenko

      да, точно ИИ. не перебор. Он играет без модификации алгоритма в любые игры, хоть Тетрис, хоть Марио хоть Го.
      В него даже правила игры не программируются — он сам их изучает

      • Ярослав Київ

        Вы идеализируете. Это именно программа созданная для данной игры:
        «AlphaGo — це комп’ютерна програма для гри в ґо»
        в него вкачали по-максимуму варианты хода игры.

  • filipp76

    Мне кажется что это матч между программистами и человеком, ведь самое главное алгоритм по которому машина вычисляет следующий ход, а написан этот алгоритм человеком, в итоге машина по сути просто ускоряет процесс выбора следующего хода.

    • maj

      Нет и нет, вся прелесть этой истории в том, в основе AlphaGo не лежит наперед заданный алгоритм оценки, как это было для DeepBlue, да и для современных шахматных процессоров.
      Алгоритм оценки позиции — то что считалось таинством человеческой интуиции у топ-игроков, был самостоятельно создан программой при прогонке десятков тысяч партий, сыгранных людьми. А затем улучшен, за счет игры программы «с собой».
      Архитектура нейронной сети и методика обучения была конечно разработана людьми, но никто из них и близко не способен оценивать позицию и играть по сравнению с получившейся в итоге программой.

      • Ярослав Київ

        Т.е. тупая накачка возможными комбинациями хода игры. 🙂

        • maj

          Каковых 10^170, что в 10^90 больше числа атомов во вселенной. И да, один ход в начале игры может оказать влияние на результат в самом конце. Эта игра не решается перебором.

          • Ярослав Київ

            Так не перебором же комбинаций, а перебором возможных партий. Перебирать бредовые ходы смысла нет, а их подавляющее большинство.

          • maj

            что такое бредовый ход? Как ты отличишь бредовый от небредового? Ход сделанный сейчас, может принести преимущество в позиции через 30-40 ходов. Так глубоко просчитать невозможно, с учетом всех возможных действий противника. И это только один ход, а их десятки возможных «небредовых». Ход сделанный в одной части доски, может оказать влияния на ситуацию в противоположной. Какой-то расчет возможен только в концовке, когда ходов уже практически не осталось.
            Оценка позиции производится игроками эвристически, на основании огромного опыта и и интуиции. И того же результата тем же способом смог достичь ИИ, на уровне с топ-игроком человеком.

          • Ярослав Київ

            Подавляющее количество ходов — вынужденные. Когда тебя вот тут закроют, то ты можешь походить тут или тут, ну может, еще тут, а все остальные — бредовые. Это в шахматах Насредин поставил мат одним конём, пожетвовав фигуры. Тут выигрыш по очкам.

          • Yuriy Pylypenko

            Бредовые ходы легко вычислить только в шахматах, потому что там количество легальных ходов мизерное: 20-40 ходов против 360 ходов в Го.
            И там удачность хода можно оценить почти мгновенно — потерял фигуру — минус оценка. Если в пределах пары полуходов фигура не отыгрывается — значит ход был «бредовый» и будет отсечён алгоритмом Mini-Max (если глубина просчёта после бредового хода не слишком большая — может быть утерян ценный ход с «жертвой», чем страдали ранние движки).

            Также в шахматах за раз можно побить только 1 фигуру, 1 неудачный ход грозит ближайшей потери 1 фигуры.

            В Го ничего не тяряется сразу, а потом может потеряться сразу 100 фигур одним ходом.

            Поэтому примитивный алгоритм MiniMax в принципе неприменим к Го, где вообще нету оценочной функции

          • Ярослав Київ

            Я вот ниже уже описал по-поводу бредовых ходов.

            Я себе представляю алгоритм приема решений, как мегаматрицу, которой на вход подаешь позицию и вариант хода — на выходе получаешь вероятность успеха.
            А матрица заполняется максимально доступным количеством партий.
            Не так?

          • Yuriy Pylypenko

            Алгоритм решений шахмат работает совершенно не так.
            В основе его лешит оценочная функция (ОФ) — каждой фигуре на доске присвоена «цена»

            В самом мощном движке 2016 года — Stockfish7 оценка фигур:
            пешка — 0.6 дебют, 0.925 ендшпиль
            конь — 3.1
            слон — 3.225
            тура 4.35 дебют, 5.475 ендшпіль
            ферзь 9.1 дебют, 9.7 ендшпіль

            Просто посчитали сумму всех фигур в позиции, у кого больше тот и «выигрывает».

            Если ход ведёт к увеличению ОФ — значит ход хороший. Если к уменьшению — плохой, отсекаем.

            Оценка делается тупым перебором всех позиций до некоторой глубины.
            Например если просчитать всех 8 легальных полуходов, и если на каждом ходе легальных ходов 20 штук, то обсчитав 20^8 = 25 600 000 000 позиций на доске (посчитав сумму фигур и ряд других параметров — бонусы и пенальти за различные позиции) мы найдем тот который ведет к максимальному увеличениею ОФ

            Нет никаких матриц и приёма решений. Есть арифметический ОФ + MiniMax

          • Ярослав Київ

            Я имел ввиду алгоримт, который называют ИИ. 🙂

            Но в алгоритмаш шахмат как и других, полюбому должна как-то оцениваться и позиция фигур. 🙂

          • Yuriy Pylypenko

            в партии где AlphaGo выиграл у Fan Hui за 165 ходов на доске ничего не случилось. просто добавлялись камни
            361^165 = 10^420 комбинаций (в шахматах всего 10^100 комбинаций, что уже больше чем электронов во Вселенной)

            даже ретроанализом партии нельзя узнать какой ход был плохой и каким ходом Фан-Хуй проиграл

          • Ярослав Київ

            Вы хотя бы при подсчете комбинаций учитывайте, что количество свободных клеток уменьшается с каждым ходом… 🙂

          • Dmitry Litvinov

            Да, если учитывать свободные клетки и не учитывать порядок, в котором фишки выставлялись, то количество способов, которым можно выставить 165 фишек равно количеству комбинаторных комбинаций из 361 по 165, т.е. 10^106, а общее количество различных расстановок на доске — 10^170 (В шахматах всего 10^47) http://faq.weiqi.ru/2011/05/18/127/

          • maj

            правильно. Вот только эта мегаматрица, даже если отсечь сразу очевидные проигрышные ходы, ветвится вглубь партии и легко превышает любое вычислимое значение исходов.
            Проблема не в том, чтобы просчитать возможные позиции на 5 ходов вперед, а в том как оценить эти позиции и выбрать лучшую. Та самая функции оценки. Грубо говоря ход Х — даст преимущество через 30 ходов и принесет 7.5 очков. А ход Y — 3 очков сейчас. Компьютер, как ты его описываешь, алгоритимически не способен просчитать на 30 ходов вперед, а суперпрофессионал 9 дана нутром чует, что ход X выигрышный. Это невозможно описать даже в эвристических функциях оценки, как это сделано для шахмат, слишком большая глубина и разнообразие ходов, потому и все вычислительные AI для GO играли на уровне среднего любителя.

          • Ярослав Київ

            Так матрица ж и выдает вероятность успеха, которая собрана статистически на куче комбинаций. 🙂

          • maj

            Ну и как же по твоему оценить эту самую вероятность успеха?) Как сказать что этот ход оценивается в 0.96, а тот в 0.67? 🙂 Каждая партия уникальна и практически каждая позиция неповторима. К 30 ходу у тебя скорее-всего будет позиция, которая никогда еще не встречалась в любой сыгранной в истории Го партии. Это не шахматы с дебютными и эндшпильными таблицами.

          • Ярослав Київ

            Статистически. При таком ходе в 96% была победа, а при таком в 67%.
            При новой комбинации выбирается вариант из наиболее похожих. В следующий раз это уже будет не новая комбинация.

          • maj

            хорошо. Вот только ходы и позиции не повторяются. После 30-40 ходов у тебя на доске будет позиция, которая еще никогда не случалась ни в одной сыгранной на Земле партии. Где ты возьмешь статистику?

          • Ярослав Київ

            Я ж написал — наиболее похожую. Точно — не совпадает, но вот на локальном участке, где непосредственно ведется бой — он совпадет. Для этого в него и «вливают» все возможные комбинации.

            А поскольку это не чисто нейронная сеть, а программа, написанная для конкретной игры, то еще дополнительными алгоритмами помогут отсечь заведомо ненужные ходы, типа как ставить свой камень в окружение и т.п…

          • maj

            бой ведется не только на локальном участке, в том то и дело, плюс глобальная стратегия. И уже точно нельзя оценивать позицию только на нем. Твоя ошибка, что ты сравниваешь эту игру с шахматами, хотя она несоизмеримо сложнее.

            В целом ты прав, что позиция оценивается статистически. Когда играет про-игрок, он не способен просчитать все варианты вглубь на десятки ходов, но за счет тренировки и десятков тысяч часов потраченных на игру, он способен интуитивно оценить что тот или иной ход будет нести преимущество через какое-то время. Интуиция — это и есть самый статистический анализ плюс поиск похожых ситуаций из опыта, который делает мозг человека подсознательно.
            Так же сделана и нейронная сеть, лежащая в основе оценочной функции этой игры. Можешь почитать статью в Nature https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72

            Через нее прогнали миллионы партий реальных игроков, пока она не научилась предсказывать «хорошие ходы» с достаточной достоверностью. А затем улучшали с помощью reinforcement learning.
            То есть по сути, она работает и обучается практически также как и человеческий мозг игрока, а не через банальный перебор или набор наперед заложенных алгоритмов, дебютных/эндшпильных таблиц и.т.п.
            В этом вся революция и значимость этого события.

          • Ярослав Київ

            С шахматами — это Yuriy Pylypenko сравнивает. 🙂 Он знает их поднаготную…

            Игра на всей доске, но когда идет «атака» то локально она такая же, как в других партиях, и от неё нужно защититься. Чем больше собрана статистика тем больше радиус поля от места атаки, положение камней на котором будет учтено.

            Вот прогонка этих миллионов партий, а потом еще и генерация недостающих и есть тупой перебор максимально возможного количества вариантов, после которого матрица будет содержать вероятность успеха для каждого хода.

            Интеллект — это создание новой информации. Тут, насколько я понимаю, просто сбор статистики. Инструмент для накопления опыта.
            Я бы не сказал, что работает, как целый человеческий мозг. Фиг его знает, как он там работает. 🙂 Может, как отдельный его элемент.

            Статью мне тяжело будет читать. Я на английском ключевые ньюансы или не пойму или пойму неправильно. Вот какие-то научно-популярные фильмы с переводом по ИИ если знаете, подскажите.

          • Yuriy Pylypenko

            Какая может быть статистика для 361^165 = 10^420 комбинаций?

            Уже через пару ходов позиция на доске уникальная и никогда в мире не встречалась

          • Ярослав Київ

            На доске да, а локально — тысячи раз сыгранная…

        • Kirill Dnepropetrovets-Ts

          Скорее, накачка априори неправильными комбинациями хода игры.
          Ведь тот же «Марио» ИИ проходил исключительно методом проб и ошибок, то есть бесконечными ошибками, пока не обнаруживал ходы, ведущие к победе.

          • Ярослав Київ

            А ИИ в Марио, когда повторно сталкивался с таким же препятствием, уже не повторял ошибок?

          • Kirill Dnepropetrovets-Ts

            Пару раз повторял еще, но потом переставал и перепрыгивал.

    • Yuriy Pylypenko

      Только алгоритма человек не знает и не понимает.
      Шахматный алгоритм знает человек, я в принципе могу (медленно конечно) посчитать в шахматах точно так как считает движок Rybka, Stockfish или Houdini. Этот алгоритм записан в сорцах, я могу открыть сорцы и пошагово его выполнить.

      AlphaGo это самообучаемый алгоритм (вообще любой абстрактной игры, играет в аркадные игры типа СуперМарио и в Го без модификации алгоритма), и как он понял правила и приёмы игры — не знает даже программист-создатель

      • вам бы статью эту переписать, а то прочитал статью — не понял чем отличается от шахмат

        • Ярослав Київ

          Это ж не его статья. 🙂

  • Konst Koval

    «невероятная партия в го, в ходе которой AlphaGo действовал на пределе своих возможностей»

    Каких возможностей? В смысле ядер надо накинуть или памяти?

    • Yuriy Pylypenko

      в смысле что преимущество над человеком минимальном. это как шахматный движок с ELO 2600 играет против человека с ELO 2600. Вероятность победы любой стороны 50/50.

      Если же играет шахматный движок ELO 3300 против игрока ELO 2600, то он выиграет с огромным запасом, даже если ему дать по 1 сек на ход

      • Класно вы написали. Осталось узнать, что такое ELO — гугл говорит, что Electric Light Orchestra, но я ему не верю. Следующие три страницы тоже не дают ответа. Наверное все таки оркестр…

        • Yuriy Pylypenko

          https://en.wikipedia.org/wiki/Elo_rating_system
          https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3_%D0%AD%D0%BB%D0%BE

          Система рейтингов Эло, коэффициент Эло — метод расчёта относительной силы игроков в играх, в которых участвуют двое игроков (например, сёги, го или шахматы).

          • да, уже нашел, спасибо, я и догадался, что это типа рейтинга.

          • Yuriy Pylypenko

            Так вот касательно «с трудом выиграть» или «легко выиграть».

            Общеизвестно, что увеличение вычислительной мощи (или больше процессорной мощности или больше выделенного времени) увеличивает силу игры любого алгоритма любой игры.
            Если Вы будете играть против компа, если у него будет 1 минута на ход и 1 час на ход, то во втором случае его сила будет сильно выше.

            В шамахтных движках было много попыток разными методами оценить что даёт удвоение вычислительной мощи (или за счет удвоения времени или за счет более быстрого железа).

            На разных глубинах и по разных методиках получалось от 50 до 85 эло прироста за каждое удвоение.

            Т.е. один и тот же алгоритм если будет играть против себя в шахматы, то на 2 минуты на ход против 1 минуты, результат будет примерно +19 -13

            Из этого следует, что если «выиграл на пределе своих возможностей», то если бы ему добавить времени/мощи то выиграл бы с запасом.

            Также вопрос «Насколько сильна та или иная программа в игре против Б» можно перефразировать «Какую минимальную мощность надо сообщить программе А чтобы она обыграла Б»

        • Yuriy Pylypenko

          http://www.3dkingdoms.com/chess/elo.htm
          один из многих онлайн калькуляторов

          На основе результатов прошлых игр вычисляем силу игрока
          например +30 =50 -20 в 100 играх дает что игрок А сильнее игрока Б на +35 ELO единиц

          Если игрок Б ранее играл с игроком В, и показал -15 ELO

          То можно прогнозировать что в игре А против В (+20 ELO) результат будет +17 -15 в пользу А

        • Ростислав

          Попробуйте поискать по «elo chess». Не благодарите.

    • сам поржал с этой фразы. конечно на пределе — пока не найдет лучший вариант для следующего хода — будет загружать проц и память на полную

    • Владимир Скрипин

      в смысле, что играли на равных.

  • статья ни о чем — чтобы понять смысл приходится читать пояснения в комментариях по объему статьи

    • Кирилл Панькин

      Го считается (считалась до сих пор) последней настольной игрой, вроде шахмат и т.п., в которой уравнивание возможностей человека и машины не светит в ближайшем будущем.

      • Yuriy Pylypenko

        В настоящий момент компания занимается исследованиями в области компьютерных систем, которые умеют играть в различные игры — от стратегических игр вроде го до компьютерных аркад. Шейн Легг утверждает, что искусственный интеллект сможет достичь уровня человека, «когда машина научится играть в широкий класс игр, используя только входной и выходной сигналы потока восприятия, и переносить понимание из игры в игру…»

        http://airesearch.com/wp-content/uploads/2016/01/deepmind-mastering-go.pdf

    • Вуйко Митич

      А спросить у Гугла, например? Религия не позволяет?

    • Yuriy Pylypenko
    • Владимир Скрипин

      Сокращенно суть описывал в предыдущей заметке — http://itc.ua/news/iskusstvennyiy-intellekt-google-vpervyie-v-istorii-pobedil-professionalnogo-igroka-v-go/. Ссылка на нее есть в тексте этой заметки. Смысл все перепечатывать?

  • MVM

    Ну хорошо, а «в прятки»?

  • Kirill Dnepropetrovets-Ts

    Ничоси!
    Уже можно начинать кричать «Слава роботам, смерть человекам!»?