Секрети покер бота Libratus: тонкощі роботи і майбутнє покеру

Чи здивував вас підсумок матчу?
Виходить до матчу ви не очікували, що Лібратус здатний громити гравців з вінрейт 14 бб / 100?
У вас не було відчуття, що гравці все ж зуміли знайти його лики, коли після початкового розгрому, все...
Деякі зі знайдених ними ликів машини були справжніми, інші ж - уявними.
Виходить, що вирішальним значенням виявилася тонке налаштування бота після сесій? З яких міркувань...
Сама програма не змінювалася, а лише вчилася реагувати на нові сайзінгі.
Відрізнявся він в цьому від Клодіко? Або Клодіко працював так само, але просто був менш досконалим?
Думаю, що перехід на унікальні карти і розрахунок терну і рівера в реальному часі дали Лібратусу вирішальну...
Наскільки далекий Лібратус від ідеальної GTO-стратегії? Скільки ще версій цієї програми ви плануєте...
Можу припустити, що ідеальний GTO-бот буде вигравати у Лібратуса близько 15 бб / 100 - точніше, від 5 до 50 бб / 100.
Багато говорилося про те, що Лібратус грає дуже агресивно і часто ставить овербети на терні і рівері....
Було дуже приємно спостерігати, як бот використовує лінії, які за великим рахунком не зустрічаються...
У світлі результату матчу багатьох гравців турбує майбутнє онлайн-покеру. Чи можна використовувати...
Якби глибина стеків в вашому матчі була більше чи менше, ніж 200 бб, то як це вплинуло б на його результат?...
Вважаю, що ми вибрали підходящі умови - чесні і одночасно з цим складні для ІІ. Якби гра йшла в стеках...
Як далі буде розвиватися покерний ІІ? Чи піде за межі хедз-апу?

Наши партнеры ArtmMisto

Минулий місяць запам'ятався багатьом гравцям новиною про першу в історії покеру перемозі штучного інтелекту, над найсильнішими гравцями в безлімітному хедз-апі. Журналіст сайту CardPlayer взяв інтерв'ю у Ноам Брауна, одного з авторів найсильнішої програми і обговорив з ним підсумки чемпіонату, деякі нюанси роботи алгоритмів і звичайно ж обговорив майбутнє покеру.

Libratus грав проти чотирьох гравців, які входять в еліту безлімітного холдема в HU NL (безлімітний техаський холдем, один на один). Підсумком його гри проти них, став вражаючий вінрейт бота, який перевищив 14 бб / 100 на дистанції в 120,000 рук. Гра велася з початковими стеками в 200 bb і виграш бота склав майже 90 бай-інів. Варто відзначити, що це перша перемога ІІ і раніше програмам не вдавалося перемагати покеристів світового рівня.

При цьому розробники вважають, що це не межа і після внесення деяких змін і апгрейдів, Libratus в теорії зможе трощити гравців з приголомшливим вінрейт в 50 bb / 100.

Минулий місяць запам'ятався багатьом гравцям новиною про першу в історії покеру перемозі штучного інтелекту, над найсильнішими гравцями в безлімітному хедз-апі

Ноам Браун

Чи здивував вас підсумок матчу?

Так, я був здивований тим, наскільки значним виявилося перевага ІІ. Перед матчем ми тестували його проти більш ранніх версій.

У Клодіко (попередня версія бота) Лібратус вигравав приблизно 10-12 бб / 100 - результат, дуже близький до показаному командою на чолі з Дугласом Полком в матчі 2015 року.

Тому в новому матчі ми розраховували лише на невелику перевагу. Але Лібратус перевершив наші очікування!

Виходить до матчу ви не очікували, що Лібратус здатний громити гравців з вінрейт 14 бб / 100?

Швидше ми просто недооцінили той фактор, наскільки сильно на результат матчу з Клодіко вплинуло застосування опонентами різких експлуатують ліній. Наприклад, вельми ефективними виявилися рейзи ЛИМП бота і такі банки склали значну частину профіту у Полка та інших гравців.

Коли Лібратус грав проти Клодіко, то він не намагався використовувати стратегії експлуатації, але при цьому все одно показував вінрейт в 10-12 бб / 100 і це повинно було натякнути нам про те, наскільки він сильніше людей. Звичайно це виявилося б так, якби гравці не змогли знайти у нього таких же слабкостей і дірок в стратегії, як у його попередника. І причиною перемоги Лібратуса став саме цей факт.

У вас не було відчуття, що гравці все ж зуміли знайти його лики, коли після початкового розгрому, все ж майже змогли зрівняти рахунок?

Дійсно, до кінця першого тижня рахунок майже зрівнявся. Гравці шукали сильні і слабкі місця у Лібратуса і намагалися зрозуміти, як він підлаштовується під їх дії. Звичайно, вони далеко не завжди ділилися з нами своїми здогадками, але та частина, яку я чув, не викликала у мене особливої тривоги.

Деякі зі знайдених ними ликів машини були справжніми, інші ж - уявними.

Наприклад, в один із днів вони вирішили грати з 3-бетом 80%, оскільки думали, що Лібратус неправильно реагує на один з сайзінгов 3-бета. Але в дійсності, ніякої помилки не було - гравців ввів в оману шум, який виник через невеликого розміру вибірки рук.

Але були і вдалі знахідки - зокрема, не найкраща реакція ІІ на певні розміри оупен-рейза. Перед початком змагання ми не думали, що це буде серйозною слабкістю, але дистанція показала нам, що даний образ виявився досить істотним. На щастя, ми готували програму до подібної ситуації. Лібратус продовжував тренуватися сам з собою ночами, поки його суперники відпочивали і усував свої прогалини в грі. Тому вже з другого тижня «гра пішла в одні ворота».

Тому вже з другого тижня «гра пішла в одні ворота»

Виходить, що вирішальним значенням виявилася тонке налаштування бота після сесій? З яких міркувань це робилося - тому що опоненти могли обговорювати стратегію між собою?

Зовсім немає! Ми не займалися тонким налаштуванням, і ніяк не впливали на роботу Лібратуса, не говорили йому 4-бетіть або Фолдіт. Все було трохи інакше.

Я наведу приклад: перед матчем ми запрограмували йому кілька сайзінгов рейза і в підсумку ІІ знав, як реагувати на типові рейзи в 2 бб, 2.5 бб, 3 бб ... Але якщо гравець відкривався рейзом в 2.75 бб, то машина округляла це значення до 3 бб і по стратегії розрахованої саме для такого сайзінга, що, зрозуміло, не було оптимальним рішенням.

Однак між сесіями з гравцями, Лібратус продовжував тренуватися і грати сам з собою рейзамі 2.75 бб, а також іншими сайзінгамі, в тому числі і на постфлопі. Він робив це за спеціальними алгоритмами, які враховували частоту дій опонентів і «віддаленість» їх сайзінгов від порахованих раніше.

І цей процес був єдиною підстроюванням, яка використовувалася ІІ під час матчу. Звичайно це вже було чимало, і такий механізм саморозвитку бота, не давав його суперникам використовувати проти нього одні і ті ж експлуатують прийоми.

Сама програма не змінювалася, а лише вчилася реагувати на нові сайзінгі.

Виходить, що підстроювання на префлопе і флопі важлива більше, ніж на терні і рівері?

Швидше вона вимагає значно більшого часу. Лібратус розраховував терен і рівер в реальному часі прямо під час роздачі. Він перераховував свою стратегію на терні і рівері кожен раз, коли його опоненти робили ставку, в залежності від її сайзінга.

Відрізнявся він в цьому від Клодіко? Або Клодіко працював так само, але просто був менш досконалим?

Так, Клодіко мав аналогічний модуль для ріверу, але він був набагато менш досконалим. Одним з головних мінусів було те, що він взагалі не брав до уваги блокери. Для прискорення розрахунків, ми групували схожі руки за категоріями і для них будували однакову стратегію. Але А-хай з тузом пік на дошці з трьома піками - це зовсім не те ж саме, що А-хай з тузом треф. До того ж Солвер Клодіко хоч не ставив свою стратегію в залежності від ставки суперника, а вважав кілька різних сайзінгов.

Думаю, що перехід на унікальні карти і розрахунок терну і рівера в реальному часі дали Лібратусу вирішальну перевагу.

Все це вимагало серйозної роботи над алгоритмом, адже при розрахунках на терні ІІ повинен розглянути понад півсотні варіантів ріверу і дерево розрахунку зростає по експоненті!

Наскільки далекий Лібратус від ідеальної GTO-стратегії? Скільки ще версій цієї програми ви плануєте випустити?

Ніхто не зможе дати відповідь, наскільки наша стратегія слабкіше оптимальної. Ми знаємо, як це можна порахувати теоретично, але такі розрахунки коштують надто дорого і тому ними поки не займалися. Можливо, спробуємо в наступному році.

Можу припустити, що ідеальний GTO-бот буде вигравати у Лібратуса близько 15 бб / 100 - точніше, від 5 до 50 бб / 100.

Ого! Невже він все ще так далекий від досконалості?

Тут не можна сказати напевно. ІІ минулих поколінь не взяв до уваги блокери, які є вельми важливою концепцією, для гри на високому рівні. У Лібратуса вже немає такої проблеми, а також він навчився перераховувати терен і рівер в реальному часі. Саме в цих напрямках, рухатися далі вже нікуди. Можу припустити, що підсилити гру можна за рахунок більш грамотного вибору сайзінгов, але ось наскільки ...

Багато говорилося про те, що Лібратус грає дуже агресивно і часто ставить овербети на терні і рівері. Чи досягла програма досконалості в балансуванні діапазонів в даних ситуаціях або її також можна поліпшити?

Овербети у виконанні Лібратуса, стали для нас одним із сюрпризів. При навчанні ІІ не використав жодної роздачі, зіграної людьми, тому стратегія, яку він вважав оптимальною, виявилася дуже незвичній і нетиповою для живих гравців - величезні овербети і донкбети!

Було дуже приємно спостерігати, як бот використовує лінії, які за великим рахунком не зустрічаються в практиці ПРО гравців.

До слова, Клодіко також приходив до схожою грі - пам'ятаєте його «дикі олл-іни» у крихітних банках? Але в цій частині його стратегії зустрічалися помилки, вона не була збалансованою. Лібратус же продемонстрував збалансовану агресію, що і стало ключем до перемоги.

У світлі результату матчу багатьох гравців турбує майбутнє онлайн-покеру. Чи можна використовувати вашого бота для нечесної гри?

Можу вас запевнити, що ми не використовуємо Лібратуса для гри в онлайн-покер і не збираємося робити це в майбутньому. Звичайно це не зупинить людей, які готові використовувати описані нами ідеї, для посилення своїх ботів. Я не готовий розмірковувати на тему онлайн-покеру, оскільки не дуже добре в ньому розбираюся. Знаю тільки, що ботів активно застосовують при грі в онлайні, а покер-руми ведуть з ними боротьбу, але хто з них перемагає - мені невідомо.

Якби глибина стеків в вашому матчі була більше чи менше, ніж 200 бб, то як це вплинуло б на його результат? Чи зміг би Лібратус впоратися зі стеком в 500 або 1,000 блайндов?

Ми вибрали стек в 200 блайндов, з тієї причини, що така глибина використовується в щорічному чемпіонаті по покеру програмування. Машині важко працювати з таким глибоким стеком, оскільки занадто сильно розростається дерево варіантів. До того ж, наскільки я знаю, стек в 200 бб є граничною заявкою на більшості столів для кеш-гри.

Вважаю, що ми вибрали підходящі умови - чесні і одночасно з цим складні для ІІ. Якби гра йшла в стеках 100 бб, то я впевнений, що Лібратус показав би вінрейт не гірше, а може навіть і краще.

Що стосується стека в 500-1,000 бб ... Я думаю, що результат машини б покращився, але в основному за рахунок слабкості суперників, які майже не мають досвіду гри в таких глибокий стеках. До того ж овербети Лібратуса стали б ще вигідніше.

Як далі буде розвиватися покерний ІІ? Чи піде за межі хедз-апу?

Ми вже проводили деякі дослідження в форматі 3-макс. Можу сказати, що ті методи, які використовувалися при створенні Лібратуса, годяться і за межами хедз-апу. Правда, з'являється нова проблема - оцінка отриманого результату.

Коли за столом грає більше 2 осіб, ви можете грати за оптимальної стратегії, але будете програвати, оскільки ваші опоненти співпрацюють, вільно чи мимоволі. Тому якщо посадити бота за стіл до п'ятьом живим гравцям, то буде не зрозуміло, як коректно порахувати результат.

До того ж на даний момент, 6-макс знаходиться за межами того, що може Лібратус і інші схожі на нього боти. Однак щорічний чемпіонат серед покерних програм вводить лігу для гри за коротким столом, і нескладно припустити, що активність програмістів в цьому напрямку буде зростати і наука в цій сфері просунеться досить швидко.

Думаю, після внесення деяких змін в Лібратус ми змогли б навчити його обігравати людей у 6-макс через 2 роки. Але поки не до кінця зрозуміло, чи варто грати по GTO або ідеально підлаштовуватися і максимально експлуатувати слабких гравців. Перше - прерогатива машин, а ось друге люди поки вміють робити набагато краще.

Чи здивував вас підсумок матчу?
Виходить до матчу ви не очікували, що Лібратус здатний громити гравців з вінрейт 14 бб / 100?
Виходить, що вирішальним значенням виявилася тонке налаштування бота після сесій?
Відрізнявся він в цьому від Клодіко?
Або Клодіко працював так само, але просто був менш досконалим?
Наскільки далекий Лібратус від ідеальної GTO-стратегії?
Якби глибина стеків в вашому матчі була більше чи менше, ніж 200 бб, то як це вплинуло б на його результат?
Як далі буде розвиватися покерний ІІ?
Чи піде за межі хедз-апу?
Виходить до матчу ви не очікували, що Лібратус здатний громити гравців з вінрейт 14 бб / 100?

Автомобильный портал