AlphaZero от Google стал сильнейшим шахматистом среди ИИ

РидОК

7 лет назад

Искусственный интеллект от Google — новый сильнейший игрок в шахматы на планете. Пятого декабря закончился шахматный поединок между самой сильной шахматной программой последних лет Stockfish 8 и искусственным интеллектом AlphaZero, разработанным компанией Google DeepMind.

AlphaZero разгромил своего соперника, не проиграв ни одной из 100 сыгранных партий. При этом алгоритм AlphaZero не специализируется на игре в шахматы. Программе было предоставлено на подготовку к матчу несколько часов. За это время AlphaZero тренировался сам с собой, воссоздав шахматную теорию, над которой человеческий интеллект работает уже более 500 лет.

Исходные данные

AlphaZero — искусственный интеллект, разработанный британской компанией DeepMind. В 2014 году компания была приобретена корпорацией Google. AlphaZero основана на нейронной сети, способной самообучаться и самосовершенствоваться. В отличие от шахматных программ, AlphaZero не привязана к компьютерному обеспечению.

Предшественник AlphaZero — алгоритм AlphaGo — в 2015 году стал первой в мире программой, которая выиграла матч у профессионального игрока в го. Эта победа считается прорывом в области искусственного интеллекта. AlphaGo на подготовку к игре понадобился 21 день. В то время AlphaZero освоила сразу три игры — го, сегу и шахматы — за 24 часа, играя сама с собой.

Stockfish 8 — сильнейший шахматный «движок» последних лет. Программа обновляется и совершенствуется чуть ли не еженедельно. Stockfish и подобные ей программы используют сильнейшие гроссмейстеры для подготовки и совершенствования своей игры.

Матч интеллектов

AlphaZero разгромила Stockfish 8 со счетом +28. То есть из 100 сыгранных партий алгоритм выиграл у компьютерного движка 28, сыграв вничью остальные 72 партии. По шахматным меркам это полный разгром. После этого AlphaZero выиграла в го у своего предшественника — AlphaGo, а также матчи у других сильнейших компьютерных программ, специализирующихся на играх сегу и го (табл.). Всего за 24 часа AlphaZero сама научилась играть в три самые интеллектуальные игры на сверхчеловеческом уровне.

Почему это важно? Во-первых, AlphaZero подается разработчиками как универсальная нейронная сеть. Программа Stockfish 8, напротив, создана специально для игры в шахматы. Более того, Stockfish 8 способна обрабатывать 70 млн ходов (оценок) за секунду, в то время как AlphaZero — только 80 000.

Разработчики указывают, что AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, сосредоточиваясь на наиболее перспективных вариантах и комбинациях, самостоятельно разрабатывая тактику и подстраиваясь под соперника, что позволяет ей совершенствоваться от игры к игре.

Этот подход к шахматам кардинально отличается от компьютерных «движков», которые каждую партию начинают «с нуля». Фактически AlphaZero прожила человеческую жизнь в шахматах, собирая весь опыт и изучая тактику, подбирая дебютную библиотеку, отталкиваясь от игры соперника.

Примечательно, что у AlphaZero было всего четыре часа на подготовку к игре с сильнейшей шахматной программой Stockfish 8. При этом у нейронной сети не было базы, а среди исходных данных — только правила игры.

Это время искусственный интеллект провел за игрой с самим собой, совершенствуясь в шахматах. Всего было сыграно от 5000 до 10 000 партий (700 000 шагов). Проще говоря, за четыре часа AlphaZero фактически с нуля создала всю шахматную теорию, над которой человечество работало с середины прошлого тысячелетия.

Что это означает для человечества и шахмат?

Из 100 сыгранных партий разработчики выложили в сеть всего десять. Беглый анализ даже этих партий, проведенный LIGA.net, демонстрирует просто огромную разницу между глубиной игры AlphaZero и Stockfish 8.

Несмотря на то что AlphaZero просчитывает в 900 раз (!) меньше ходов в секунду, преимущество нейронной сети над компьютерным движком подавляющее — как между топ-гроссмейстером и международным мастером. AlphaZero переигрывала Stockfish 8 комбинационно, жертвуя фигуры и с легкостью отдавая материальный перевес ради тактических и стратегических преимуществ, которые в итоге приводили к победе.

Именно такой подход к игре выбирали шахматисты на заре соревнований с компьютером в 1990-х годах. Фактически AlphaZero переиграла Stockfish 8 за счет схожести с человеком, но со сверхчеловеческими возможностями.

Алгоритм AlphaZero сейчас недоступен для шахматистов. Если он будет применяться для анализа шахматных партий, то за несколько лет теория шахмат может продвинуться вперед больше, чем за последнее столетие. Уже более 15 лет сильнейшие компьютерные программы играют в шахматы значительно лучше людей.

К примеру, шахматный рейтинг ELO программы Stockfish составляет 3226 пунктов, рейтинг отнюдь не сильнейшего в мире украинского шахматного движка Boot 6 — 3051 пунктов, а рейтинг чемпиона мира норвежца Мугнуса Крлсена — всего 2834 пункта.

Гроссмейстеры используют компьютерные программы для обучения, анализа и совершенствования своей игры. Но соперничать с «железом» человеку давно не под силу, не говоря об искусственном интеллекте.

Безусловное AlphaZero — это пока универсальный искусственный интеллект, который может решать сразу множество задач. Тем не менее это первая нейронная сеть, которая действует как человеческий мозг, принимая решения не только на основе математических расчетов вероятностей, но оперируя «мыслящим» алгоритмом. Победы за шахматной доской — лучший тому пример.

Для компании-разработчика DeepMind игра в шахматы — это только демонстрация возможностей. Назначение искусственного интеллекта куда более глобально, чем победы в настольных играх.

Поделиться в: