Искусственный интеллект вновь победил человека. В этот раз ИИ одержал верх в покер. И в этом, кажется, нет ничего удивительного, ведь в этой игре искусственный разум оказывался первым и раньше.
Однако сейчас все иначе: машина победила сразу пятерых игроков в «Техасский холдем» и при этом была нацелена на максимально высокий выигрыш.
Что такое «Техасский холдем»
Если не вдаваться в подробности правил игры, то это один из самых распространенных видов покера. В тех самых сценах, которые вы видели во множестве фильмов, когда игроки сидят вокруг стола и по очереди делают ставки, фигурирует именно холдем. За столом располагаются 6 игроков и постепенно они делают ставки. В любой момент можно выйти из игры, но тогда обратно вложенных денег вы не получите. Так продолжается до тех пор, пока не настанет напряженная «битва» один на один, в которой победитель забирает все.
В недавнем эксперименте специалисты по разработке ИИ из Facebook и Университета Карнеги-Меллон «усадили» за стол к игрокам искусственный интеллект, который имел одну задачу: выиграть как можно больше денег.
Почему искусственный интеллект смог обыграть человека
Разработка прибыльного алгоритма для игры в покер одновременно с несколькими игроками (а в теории и за несколькими столами одновременно) — задача куда более сложная, чем научить ИИ играть в шахматы или го. В основном это от того, что в покере дается лишь очень ограниченная информация о том, что происходит за покерным столом. То есть, если в тех же шахматах компьютер «видит» всю картину целиком, включая расположения фигур противника, в покере ИИ знает лишь то, какие карты у него на руках и какие выложены на стол. Также можно, что называется, «посчитать карты», предугадав, какие из них уже «ушли», что позволит предсказать возможные комбинации. Но это все равно сложнее, чем анализировать «открытое» шахматное поле.
Благодаря новым алгоритмам обучения, система под названием Pluribus за 12 дней и 10 000 раздач сразилась с 12 профессиональными игроками в покер. В итоге Pluribus выигрывал в среднем по 5 долларов за раздачу и примерно по 1000 долларов за час.
Как ИИ научился играть в покер
Для начала разработчики заставили ИИ играть против самого себя и методом проб и ошибок подбирать наиболее подходящую тактику. Это, в общем то, стандартный способ обучения. Интересно тут другое: Pluribus был создан всего за восемь дней с использованием 64-ядерной серверной станции, оснащенной лишь 512 ГБ оперативной памяти. Это обучение стоило компании всего около 150 долларов.
Но на этом тренировка ИИ не закончилась. Программисты придумали способ работы искусственного интеллекта, который позволил ему играть крайне эффективно. Вместо того, чтобы пытаться предсказать, как его противники будут вести себя до конца игры, Pluribus был спроектирован так, чтобы «смотреть» только на два или три хода вперед. Это позволило пустить ресурсы системы на более полезные действия. Например, на развитие возможности блефовать.
«Способность к осознанному блефу считается исключительной прерогативой людей», — отмечают авторы издания The Verge. «При этом лишенный долгосрочного стратегического мышления Pluribus, как отмечают почти все участники эксперимента, очень успешно блефовал. Для алгоритма это был лишь один из способов выиграть раздачу, но далеко не самый основной».
Исследователи объявили, что не будут выкладывать алгоритм и все, что было связано с его разработкой, в свободный доступ. При этом наработки, полученные во время недавнего эксперимента, очень важны: они позволят, например, выявлять финансовые махинации на рынке ценных бумаг, помогут автоматическим системам регулировки трафика и будут полезны даже при разработке более эффективных автопилотов.