Как АльфаЗеро изучает шахматы

PeterDoggers

Обновлено: 20 нояб. 2021 г., 06:13 | 12 | Разное

Обучение программы АльфаЗеро похоже на обучение людей. Новое исследование компании DeepMind при участии 14-го чемпиона мира Владимира Крамника свидетельствует о том, что в нейронной сети АльфаЗеро возникают понятные людям концепции, хотя АльфаЗеро использует для обучения только собственный опыт.

Как АльфаЗеро учится играть в шахматы? Как выбирает ходы? Думает ли программа о безопасности короля или активности фигур? Как программа изучает дебют? Отличается ли дебютная теория нейронной сети от теории, созданной людьми?

Эти вопросы обсуждаются в новом исследовании компании DeepMind под названием Acquisition of Chess Knowledge in AlphaZero ("Получение шахматных знаний в АльфаЗеро"), написанном коллективом авторов, куда вошли Томас МакГрат, Андрей Капишников, Ненад Томашев, Адам Пирс, Демис Хассабис, Бин Ким, Ульрих Пакет и Крамник. Это вторая совместная публикация DeepMind и Крамника после опубликованной в прошлом году работы, где он исследовал с помощью АльфаЗеро различные варианты шахмат, отличающиеся правилами.

Кодирование человеческих концепций

В исследовании используется метод кодирования человеческих концепций (например, это пара слонов, материальное (не)равновесие, активность или безопасность короля), связанных с нашими знаниями о шахматах, позволяющий определить, используются ли они в оценке позиции нейронной сетью АльфаЗеро. .

Такие концепции, как материальный перевес, преимущество двух слонов, активность, безопасность короля, угрозы, проходные пешки и пространство, входят в оценочную функцию движка Стокфиш 8 как вспомогательные функции, которые вычисляются отдельно и учитываются в общей оценке, выраженной одним числом, например, "0.25" (у белых небольшой перевес) или "-1.48" (у черных большой перевес). Заметим, что в современных версиях Стокфиш используется нейронная сеть, аналогичная АльфаЗеро, но они не обсуждались в статье.

Также в исследовании изучались концепции, связанные с более специфичными особенностями позициями, например, вилками, связками, борьбой за открытые вертикали и различными особенностями пешечной структуры.

Разработчики использовали линейную регрессионную модель для поиска человеческих концепций в нейронной сети АльфаЗеро и пытались визуализировать появление концепций в ходе обучения на так называемых "графиках что-когда-где": что за концепция появляется, когда в ходе обучения и где в нейронной сети.

Исследование приходит к выводу, что в ходе обучения АльфаЗеро создает представления, аналогичные человеческим концепциям, включая высокоуровневую оценку позиции, ходов-кандидатов и их последствий, а также отдельных особенностей позиции.

Ценность фигур и факторы оценки

Следующим шагом исследования стал поиск взаимосвязи между человеческими концепциями и оценочной функцией АльфаЗеро. Одной из первых изученных концепций стала ценность фигур - то, с чего начинается объяснение правил шахмат начинающим. Обычно считается, что ферзь равен по ценности девяти пешкам, ладья - пяти, слон или конь - трем. На графике слева, взятом из публикации, показано изменение ценности фигур в ходе обучения АльфаЗеро: со временем она приближается к общепринятым значениям.

Слева: Аппроксимация ценности фигур (ферзя, ладьи, слона и коня) в нейронной сети АльфаЗеро в ходе тренировки. Справа: вес шести факторов (сверху вниз в легенде: преимущество двух слонов, безопасность короля, материальный перевес, активность, пространство и угрозы) в оценке нейронной сети АльфаЗеро в ходе обучения. Изображения предоставлены DeepMind.

На графике справа показано, что значимость материального перевеса резко возрастает на ранних этапах обучения АльфаЗеро (как и при человеческом обучении), потом она выходит на плато, и менее очевидные факторы, например, активность фигур и безопасность короля, начинают приобретать больший вес, а значение материального перевеса снижается.

Обучение АльфаЗеро и развитие человеческих знаний

Другой раздел работы связан со сравнением процесса обучения АльфаЗеро с историческим развитием человеческих знаний. Исследователи сравнили партии самообучающейся АльфаЗеро с Мегабазой ChessBase, включающей партии с 1475 года до XXI века, и указали на наличие существенной разницы:

АльфаЗеро начинает обучение с одинаковой оценкой всех дебютных ходов, но с течением времени количество применяемых продолжений уменьшается. Человеческая теория дебютов за пять прошлых столетий развивалась иначе: вначале встречается почти исключительно 1.e4, потом появляются другие возможные продолжения.

Ход 1.d4 стал немного популярнее, чем 1.e4, в начале XX века, а потом увеличилось и распространение других гибких систем, например, 1.c4 и 1.Кf3. В свою очередь, АльфаЗеро в начале обучения применяет самые разные ходы, а потом начинает отдавать предпочтение "основным" ходам.

Изменение предпочтений АльфаЗеро в ходе обучения. На графиках показано развитие разных "версий" АльфаЗеро. Изображение предоставлено DeepMind.

Берлинская защита

Исследование рассматривает подробнее берлинскую защиту испанской партии (ход 3...Кf6 после 1.e4 e5 2.Кf3 Кc6 3.Сb5), ставшую популярной среди сильнейших шахматистов лишь в начале XXI века после своего успешного применения Крамником в матче а первенство мира против Гарри Каспарова в 2000 году. До матча этот ход считался пассивным и ведущим к преимуществу белых. Предпочтение отдавалось ходу 3...a6.

Исследование:

Человеческая дебютная теория не сразу смогла оценить выгоды берлинской защиты и найти оптимальные продолжения за черных в этой позиции. В свою очередь, АльфаЗеро довольно быстро, сразу после освоения базовых концепций шахмат, начинает применять этот вариант. В этом заключается заметное отличие в развитии дебютных идей людей и движков.

Предпочтения АльфаЗеро и людей в испанской партии. Изображение предоставлено DeepMind.

При обучении других версий АльфаЗеро половина из них заметно предпочитала ход 3… a6, а другая - ход 3… Кf6! Это очень интересно как свидетельство о возможности существования различных версий сильнейшего шахматиста вместо одной "уникальной". Приводим таблицу с предпочтениями четырех версий нейронной сети АльфаЗеро:

	АЗ-1	АЗ-2	АЗ-3	АЗ-4
3… Кf6	5.50%	92.80%	88.90%	7.70%
3… a6	89.20%	2.00%	4.60%	85.80%
3… Сc5	0.70%	0.80%	1.30%	1.30%

^{Предпочтения четырех разных версий АльфаЗеро, полученных после миллиона розыгрышей, в позиции после 1. e4 e5 2. Кf3 Кc6 3. Сb5. Иногда АльфаЗеро предпочитает 3… a6, а иногда - 3… Кf6.}

Аналогичным образом в ходе обучения АльфаЗеро создает и свою теорию других дебютов. В определенный момент программа понимает, что ходы 1.d4 и 1.e4 - сильнейшие и начинает применять их чаще. Точно так же, АльфаЗеро переходит к применению хода 1...e5 в ответ на 1.e4 одним резким скачком. Следующий график показывает, что программа сначала считает и 2.d4, и 2.Кf3 приемлемыми продолжениями за белых, но потом 2.d4 быстро утрачивает популярность, и ход 2.Кf3 становится стандартным ответом.

АльфаЗеро выбирает сильнейшее продолжение после 1.e4 e5. Изображение предоставлено DeepMind.

Качественная оценка Крамника

Крамник провел для данного исследования качественную оценку, сравнив и попытавшись охарактеризовать стиль АльфаЗеро на разных этапах обучения посредством изучения партий версий АльфаЗеро, завершивших обучение на разных этапах.

По словам 14-го чемпиона мира, в начале обучения АльфаЗеро получает "приближенное понимание концепции материального перевеса, но не может точно оценить материальное соотношение в сложных позициях. Это приводит к потенциально нежелательным разменам и проигрышу партий".
На втором этапе АльфаЗеро "хорошо понимает ценность фигур и умеет использовать ошибки в оценке материального соотношения", допущенные менее тренированными версиями АльфаЗеро.

На третьем этапе, по мнению Крамника, АльфаЗеро лучше понимает безопасность короля в острых позициях. Это ведет к тому, что версия, завершившая обучение на втором этапе, может "недооценивать атаки и долговременные материальные жертвы версии третьего этапа обучения и переоценивать свою атаку, попадая в проигранные положения".

На четвертом этапе обучения движок "намного лучше понимает", какая атака приведет к успеху, а какая окажется неудачной. Крамник замечает, что АльфаЗеро четвертого этапа принимает жертвы движка "третьего этапа", защищается, сохраняет материальный перевес и доводит его до победы.

Крамник также замечает, что, аналогично людям, в ходе обучения развитие комбинационного зрения опережает у АльфаЗеро развитие позиционного понимания. Разработчики получили экспериментальные доказательства этого тезиса, начиная партии программы с "позиционных" (отказанного ферзевого гамбита и берлинской защиты) или "комбинационных" (варианта Найдорфа или староиндийской защиты) дебютных позиций, но им нужно провести дополнительные работы, чтобы понять, какие умения были получены программой.

Владимир Крамник вновь принял участие в исследовании АльфаЗеро. Фотография Марии Емельяновой/Chess.com.

Применение вне шахмат

Долгое время считалось, что проекты машинного обучения создают концепции, у которых мало общего с человеческим пониманием выбранной предметной области. Иначе говоря, люди неспособны понять, как и чему учит себя искусственный интеллект.

Данное исследование доказывает, что человеческие концепции могут появиться даже у искусственного интеллекта, не обучавшегося на созданных людьми данных. Нейронная сеть АльфаЗеро использует человеческие концепции, хотя она не видела ни одной шахматной партии людей.

Последствия этого могут быть важны не только для шахмат. Исследователи заключают:

Тот факт, что человеческие концепции могут быть найдены даже нечеловеческой системой, обучающейся на игре с самой собой, расширяет диапазон систем, где мы можем ожидать выявление человеческих концепций. Мы полагаем, что способность нейронной сети АльфаЗеро находить понятные для людей концепции показывает, что при более детальном изучении обнаружится еще больше концепций.

Соавтор исследования Ненад Томашев сообщил в интервью Chess.com , что лично ему было любопытно узнать, существует ли "естественный" ход развития теории шахматных дебютов:

В контексте истории человечества — развивалась бы теория дебютов по тому же пути, если начать развитие шахмат заново в далеком прошлом? В понимании закономерностей шахмат и позиций миттельшпиля было немало противоположных точек зрения: важность динамики или структуры, материального перевеса или атаки, пары слонов или других легких фигур, важность пространства или план гипермодернистов: провоцировать противника на захват пространства, чтобы контратаковать ослабленный центр, и так далее. Это влияло и на выбор дебютов. При изучении развития шахматной мысли остается неясным, могло ли оно пойти другим путем. Возможно ли, что людям проще понять и сформулировать одни шахматные концепции и точки зрения, чем другие? Является ли процесс уточнения концепций и расширения их списка линейным или нет? Мы не можем перезапустить ход истории, поэтому мы можем только строить догадки, отвечая на эти вопросы.

Обучая АльфаЗеро, мы можем начать все с нуля снова и снова и сравнить результаты с тем, что мы видели в истории человеческих шахмат. Мы можем использовать АльфаЗеро как чашку Петри для поиска ответа на этот вопрос, изучая, как искусственный интеллект узнает новое об игре. Оказывается, что в обучении нейронной сети есть и сходство, и различие в сравнении с историей человеческих шахмат. Существует стабильность, когда определенные результаты совпадают в разных циклах обучения, но она не является абсолютной. Иногда обучение идет по иному пути, и создается другой дебютный репертуар.

На вопрос о закономерности исторического развития теории дебютов невозможно дать исчерпывающий ответ. Многое еще предстоит понять, но мы надеемся, что наши результаты позволят взглянуть на мир под новым углом и задуматься глубже о том, как мы учимся, растем и становимся лучше; задуматься о природе разума, о том, как он проходит путь от нуля до глубокого понимания такой сложной вещи, как шахматы".

Крамник сообщил Chess.com:

"Благодаря этому исследованию мы можем попытаться найти ответ на два главных вопроса. Во-первых, как АльфаЗеро учится шахматам и совершенствуется? Это важный вопрос. Если мы найдем на него ответ, то сможем использовать выводы в обучении людей.

Во-вторых, мне кажется, что будет любопытно выявить и закономерности, существенные для АльфаЗеро, но непонятные для людей. Этот вопрос еще предстоит изучить, но я думаю, что, скорее всего, мы не замечаем в шахматах важные закономерности, а АльфаЗеро настолько силен именно потому, что он ими пользуется. [...] Возможно, наш подход к изучению и обучению шахматам весьма ограничен. АльфаЗеро поможет нам его расширить, если мы поймем его видение шахмат".

Peter Doggers

Peter Doggers joined a chess club a month before turning 15 and still plays for it. He used to be an active tournament player and holds two IM norms.

Peter has a Master of Arts degree in Dutch Language & Literature. He briefly worked at New in Chess, then as a Dutch teacher and then in a project for improving safety and security in Amsterdam schools.

Between 2007 and 2013 Peter was running ChessVibes, a major source for chess news and videos acquired by Chess.com in October 2013.

As our Director News & Events, Peter writes many of our news reports. In the summer of 2022, The Guardian’s Leonard Barden described him as “widely regarded as the world’s best chess journalist.”

In October, Peter's first book The Chess Revolution will be published!

Company Contact and News Accreditation:

Email: peter@chess.com FOR SUPPORT PLEASE USE chess.com/support!
Phone: 1 (800) 318-2827
Address: PO Box 60400 Palo Alto, CA 94306

Больше от пользователя PeterDoggers