Новая версия AlphaZero разгромила Stockfish в матче из 1,000 партий
AlphaZero снова изумляет мир шахмат свой мощью.

Новая версия AlphaZero разгромила Stockfish в матче из 1,000 партий

pete
pete
|
22 | Шахматные турниры

DeepMind, компания-разработчик искусственного интеллекта AlphaZero, ушедшая в тень на год после первой ошеломительной публикации в прошлом декабре, опубликовала потрясающий воображение отчет о новой версии своего проекта машинного обучения.

Все вопросы сняты: AlphaZero является самым сильным шахматистом мира.

Обновленная AlphaZero разгромила Stockfish 8 в новом матче из 1,000 партий со счетом  +155 -6 =839. (Далее в статье: три партии матча с анализом  Stockfish 10 и видео-анализом МГ Роберта Хесса.)

AlphaZero также победила Stockfish в серии матчей с дачей форы по времени. Она выигрывала у обычной компьютерной программы, даже оставив себе в десять раз меньше времени на обдумывание.

В дополнительных матчах новая AlphaZero победила "последнюю разрабатываемую версию" Stockfish почти с тем же результатом, что и в матче со Stockfish 8. В окончательной версии статьи указано, что AlphaZero играла против последней разрабатываемой версии Stockfish на 13 января 2018, то есть, Stockfish 9.

Машинно обучаемая программа также выиграла все матчи у "варианта Stockfish, который, по сообщению DeepMind, использует сильную дебютную книгу". Дебютная книга помогла Stockfish, наконец, выиграть довольно много партий белыми—но этого было недостаточно, чтобы выиграть матч.

alphazero vs stockfish

Результаты AlphaZero (победы зеленым, поражения красным) против последней версии Stockfish (вверху) и Stockfish с сильной дебютной книгой (внизу). Изображение предоставлено DeepMind и Science.

Отчет будет опубликован в статье издания Science, но он заранее был предоставлен избранным шахматным СМИ разработчиками из DeepMind, компании, работающей в Лондоне и принадлежащей Alphabet, холдингу, который владеет и Google.

Матч из 1,000 партий проводился в начале 2018 года. AlphaZero и Stockfish давалось по три часа на партию каждой с добавлением 15 секунд на ход. Выбранный контроль времени позволил отбросить в сторону один из самых веских доводов против значимости прошлогоднего матча: якобы, контроль времени по минуте на ход, применявшийся в 2017 году, был невыгоден для  Stockfish.

Три часа на партию с добавлением 15 секунд не оставляют места для подобных споров. Это количество времени огромно для любого компьютерного движка. В партиях с форой по времени AlphaZero доминировала даже при соотношении времени 10-1. Stockfish добился преимущества в счете, только получив в 30 раз больше времени на обдумывание.

alphazero vs stockfish

Результаты AlphaZero (победы зеленым, поражения красным) против Stockfish 8 в партиях с форой по времени. Изображение предоставлено DeepMind и Science.

Результаты AlphaZero в партиях с форой по времени свидетельствуют о том, что она не только играет намного сильнее любой традиционной шахматной программы, но и также ищет ходы намного более эффективным образом. По сообщению DeepMind, AlphaZero использует поиск по дереву Монте-Карло, изучая около 60,000 позиций в секунду в сравнении с 60 миллионами, которые оценивает Stockfish.

alphazero vs stockfish

Поиск ходов программой AlphaZero. Изображение предоставлено DeepMind и Science.

К какому выводу могут прийти любители компьютерных шахмат на основании этих результатов? AlphaZero укрепила свой статус сильнейшего шахматиста в мире. Причем, все выглядит еще интереснее, если учесть, что искусственный интеллект умеет играть не только в шахматы.

Согласно статье, обновленный алгоритм AlphaZero одинаков для трех настольных игр: шахмат, сёги и го. Эта версия AlphaZero смогла победить сильнейших компьютерных противников во всех трех играх всего лишь через несколько часов самообучения, начав со знания базовых правил игры.

Обновленные результаты AlphaZero были опубликованы точно через год после того, как компания DeepMind опубликовала первый отчет о результате матча AlphaZero против Stockfish, навсегда изменившего мир шахмат.

С тех пор возник проект Lc0 на основе открытого кода, который попытался повторить успех AlphaZero и уже сумел восхитить болельщиков шахмат. Теперь Lc0 соревнуется наряду с чемпионом Stockfish и другими сильнейшими в мире движками в непрерывно идущем чемпионате Chess.com среди компьютерных программ.

Фанаты CCC будут рады видеть в некоторых новых партиях AlphaZero "пешки-олешки", как в чате CCC называют далеко продвинутые изолированные пешки, которые сковывают действия противника. Возможно, создание таких пешек - основа идеальной победной стратегии в шахматах, потому что этот прием независимо друг от друга открыли AlphaZero и Lc0.

Компания DeepMind опубликовала 20 партий, отобранных  МГ Мэтью Садлером из 1,000 сыгранных партий. Chess.com выбрал для публикации в статье три партии с подробным анализом Stockfish 10 и видеоанализом МГ Роберта Хесса. По ссылке под статьей вы можете загрузить 20 партий, проанализированных Stockfish 10, и четыре партии, проанализированные Lc0.

Дополнение: Уже после опубликования статьи, DeepMind опубликовала 210 партий, которые можно загрузить здесь.


Партия 1 с анализом Stockfish 10:

Видео МГ Роберта Хесса с анализом первой партии:

Партия 2 с анализом Stockfish 10:

Видео МГ Роберта Хесса c анализом второй партии:

Партия 3 с анализом Stockfish 10:

Видео МГ Роберта Хесса c анализом третьей партии:

ММ Анна Рудольф также записала видео с анализом одной из партий, назвав ее "Жемчужиной AlphaZero".

Новая версия AlphaZero самостоятельно обучалась шахматам, начиная с правил игры в качестве отправной точки, с использованием техник машинного обучения для развития нейронной сети. По словам DeepMind, для создания первого массива партий для самообучения использовались    5,000 ТПУ, (тензорных процессоров - специализированных интегральных схем для работы искусственного интеллекта), потом тренировка нейросети продолжилась на 16 ТПУ.

Общее время обучения шахматам составляло девять часов с нуля. По словам DeepMind, новой AlphaZero потребовалось всего четыре часа, чтобы превзойти Stockfish, а через девять часов она была намного сильнее чемпиона мира среди компьютерных программ.

Для игры в матче Stockfish использовал 44 ядра ЦПУ (центральных процессоров), а AlphaZero один компьютер с четырьмя ТПУ и 44 ядрами ЦПУ. В распоряжении Stockfish был хэш размером 32ГБ и семифигурные эндшпильные таблицы.

alphazero vs stockfish

Результаты партий AlphaZero против Stockfish в самых популярных среди людей дебютах. Слева результаты AlphaZero белыми, справа - черными. Изображения предоставлены DeepMind и Science. Нажмите для увеличения

Профессиональные шахматисты, были впечатлены увиденными партиями. МГ Роберт Хесс назвал их "невероятно сложными".

Компания DeepMind так описывает стиль своего детища в статье:

"В некоторых партиях AlphaZero жертвовала фигуры в обмен на долговременный стратегический перевес, что позволяет сделать вывод, что ее позиционная оценка является более гибкой и контекстной, чем оценки, основанные на правилах, которые применяются шахматными программами прошлых поколений", - заявляют исследователи из DeepMind.

Компания-разработчик искусственного интеллекта подчеркивает важность того, что одна и та же версия AlphaZero использовалась для трех различных игр, назвав это прорывом в области игрового искусственного интеллекта:

"Эти результаты приближают нас еще на один шаг к выполнению долгосрочной задачи разработчиков искусственного интеллекта: созданию обобщенного игрового интеллекта, который может освоить любую игру", - говорят исследователи из DeepMind.

"Не могу сдержать радость от открытого, динамичного стиля AlphaZero. Это не совсем мой стиль, но это совсем не маловразумительное маневрирование, в которое, как мы боялись, превратятся компьютерные шахматы". - Гарри Каспаров, 6 декабря 2018.

Вы можете загрузить 20 избранных партий, опубликованных DeepMind первыми, с подготовленным Chess.com анализом с помощью Stockfish 10 на мощном компьютере. Первые  10 были сыграны без дебютных книг, а вторые 10 с дебютной книгой, использовавшейся на TCEC (Top Chess Engine Championship) в 2016 году.

Загрузить в формате PGN:

20 партий с анализом Stockfish 10:

4 избранные партии с анализом Lc0:

Интересуетесь AlphaZero? Вы можете наблюдать за игрой Lc0, проекта машинного обучения, вдохновленного ей, в текущем Чемпионате среди компьютерных программ.

Больше от пользователя pete
Стокфиш побеждает в чемпионате Chess.com среди компьютерных программ

Стокфиш побеждает в чемпионате Chess.com среди компьютерных программ

Чемпионат Chess.com среди компьютерных программ: Лила преследует "большую тройку" движков

Чемпионат Chess.com среди компьютерных программ: Лила преследует "большую тройку" движков