AlphaZéro explore les échecs repensés avec de nouvelles règles

AlphaZéro explore les échecs repensés avec de nouvelles règles

PeterDoggers
PeterDoggers
|
1 | Couverture d’événements d’échecs

Dans un nouvel article de DeepMind, cette fois-ci co-rédigé par le 14ème champion du monde Vladimir Kramnik, le moteur d'échecs AlphaZero a utilisé sa capacité d'auto-apprentissage pour explorer la conception de nouvelles variantes du jeu d'échecs, avec différents ensembles de règles.

L'article est intitulé "Évaluer l'équilibre du jeu avec AlphaZero : exploration d'autres règles du jeu aux échecs" et a été rédigé par Nenad Tomasev, Ulrich Paquet et Demis Hassabis, de Deepmind, en collaboration avec Kramnik. Le Grand Maître russe travaille avec DeepMind depuis l'année dernière, lorsque nous avons publié son article sur les échecs sans roquer.

Dans cette nouvelle étude, le No-Castling chess (échecs sans roquer) est l'une des neuf variantes passées au crible. AlphaZero a simulé des décennies de jeu humain en quelques heures, ce qui a permis de voir à quoi ressembleraient potentiellement les parties entre de forts joueurs humains dans ces variantes.

La conception de jeux est en général compliquée. Trouver une nouvelle variante d'échecs qui fonctionne réellement l'est tout autant. Comme en attestent les chercheurs : "Concevoir des ensembles de règles de jeu attrayantes et équilibrées n'est pas trivial, en raison des difficultés à évaluer les conséquences des changements spécifiques sur la dynamique et l'attrait du jeu".

Le Maître International Danny Rensch a examiné en détail le document pendant la période d'embargo, pendant laquelle Chess.com a bénéficié d'un accès privilégié aux parties. Il en a profité pour créer ce bref aperçu (ainsi que plusieurs autres vidéos à venir !) des points-clé du rapport, ainsi que son propre "top 10" des variantes ici expérimentées par AlphaZero :

En utilisant le système d'apprentissage par renforcement d'AlphaZero, les chercheurs ont voulu montrer le potentiel d'AlphaZero à être utilisé "comme un outil pour l'exploration créative et la conception de nouvelles variantes d'échecs".

Les neuf variantes testées par AlphaZéro

Variantes Changement de règle principal Changement de règle secondaire
No-castling (Interdiction de roquer) Le roque est interdit durant toute la partie -
No-castling (10) Le roque est interdit durant les 10 premiers coups (20 demi-coups) -
Pawn one square (Pion d'une case) Les pions ne peuvent avancer que d'une seule case -
Stalemate=win (Pat=victoire) Forcer le pat est un moyen de gagner plutôt que de faire nulle -
Torpedo (Torpille)

Les pions peuvent avancer au choix d'une ou de deux cases peu importe leur position sur l'échiquier

La prise en passant peut dès lors se produire en toutes circonstances

-
Semi-torpedo (Semi-torpille) Les pions peuvent avancer de deux cases depuis la seconde et la troisième rangée -
Pawn-back (Recul des pions) Les pions peuvent reculer d'une case mais seulement jusqu'à la seconde et septième rangée, respectivement pour les blancs et les noirs. Les coups de pion ne comptent pas dans la règle des 50 coups
Pawn-sideways (Pion sur les côtés) Les pions peuvent également se déplacement latéralement d'une case. Rien ne change au niveau des prises. Les coups de pion latéraux ne comptent pas dans la règle des 50 coups
Self-capture (auto-capture) Il est possible de prendre ses propres pièces -

Quelle serait votre variante préférée à essayer ? 


Pour chaque variante, AlphaZero est parti de rien et a ensuite joué un grand nombre de parties contre lui-même : 10 000 parties avec une seconde par coup, et 1 000 autres avec une minute par coup. Sur la base de ces parties, une évaluation quantitative et qualitative a été réalisée.

Évaluation quantitative 

Pour chaque variante, on a déterminé le taux de nulles attendu et l'avantage de commencer, exprimé sous la forme du score attendu pour les blancs. Il était prévu que ces éléments soient différents selon les cadences et que dans toutes les variantes, il y ait davantage de nulles dans les parties d'une minute /coup que dans celles d'une seconde/coup.

"Cela semble suggérer que la position de départ pourrait être théoriquement nulle dans ces variantes, comme aux échecs classiques, et que certaines des variantes sont simplement plus difficiles à jouer, impliquant plus de calculs et des motifs plus riches", analysent les chercheurs.

Variantes Entraînement 1 sec 1 min
Classique 54.10% 51.80% 50.80%
No castling 55.70% 53.30% 51.30%
No castling (10) 52.50% 51.00% 50.40%
Pawn one square 53.50% 51.60% 50.30%
Stalemate=win 54.90% 53.00% 51.10%
Torpedo 57.00% 56.80% 54.00%
Semi-torpedo 54.70% 53.60% 50.90%
Pawn-back 53.00% 51.10% 50.10%
Pawn-sideways 54.80% 52.80% 50.50%
Self-capture 54.20% 52.60% 50.80%

Cette étude illustre également comment une même ouverture peut conduire à des résultats très différents selon les variantes utilisées. Cela a été fait en forçant AlphaZero à jouer la Défense Hollandaise, la Défense Chigorin, la Défense Alekhine et le Gambit Roi 1000 fois dans toutes les variantes sauf celle du Pawn one square.

Pour les variantes qui permettent des coups supplémentaires en plus des options classiques (comme l'auto-capture), il a été analysé combien de fois ces options ont été utilisées par AlphaZero. Il s'est avéré que les coups habituellement illégaux ont été joués dans un grand pourcentage de parties, souvent plusieurs fois par partie, dans chacune des variantes. "Cela suggère que les nouvelles options sont effectivement utiles et contribuent au jeu", en déduisent les chercheurs.

Un autre segment intéressant de cette étude concerne l'approximation de la valeur des pièces dans chacune des variantes. Celles-ci ont été calculées à partir d'un échantillon de 10 000 parties rapides jouées par AlphaZero :

Variantes p C F T D
Classical 1 3.05 3.33 5.63 9.5
No castling 1 2.97 3.13 5.02 9.49
No castling (10) 1 3.14 3.40 5.37 9.85
Pawn one square 1 2.95 3.14 5.36 9.62
Stalemate=win 1 2.95 3.13 4.76 8.96
Self-capture 1 3.10 3.22 5.34 9.42
Pawn-back 1 2.65 2.85 4.67 9.39
Semi-torpedo 1 2.72 2.95 4.69 8.3
Torpedo 1 2.25 2.46 3.58 7.12
Pawn-sideways 1 1.8 1.98 2.99 5.92

Évaluation qualitative

Outre leur analyse quantitative, les chercheurs ont également voulu répondre à des questions plus subjectives sur la valeur esthétique des types de positions, des coups et des motifs qui se présentent dans les différentes variantes. C'est ici que Kramnik entre en scène.

Afin d'essayer d'évaluer laquelle des variantes pourrait être la plus intéressante à jouer pour les humains.

Vladimir Kramnik
Vladimir Kramnik. Photo : Peter Doggers/Chess.com.

Comme démontré dans l'article de l'année dernière, Kramnik considère les échecs sans roquer comme une variante potentiellement passionnante, "étant donné que la sécurité du roi est souvent compromise pour les deux joueurs, ce qui permet d'attaquer et de contre-attaquer simultanément et que l'égalité, lorsqu'elle est atteinte, tend à être de nature dynamique plutôt que "sèche". "La multitude d'approches pour abriter le roi, et leur timing, ajoute de la complexité aux ouvertures".

Kramnik estime que le fait de ne pas autoriser le roque avant le 10ème coup n'est pas assez différent des échecs classiques ; AlphaZero a de toute façon tendance à roquer dans la plupart des parties. Il est du même avis pour les échecs "Stalemate=win", où seules certaines finales sont évaluées différemment.

La variante la plus compliquée, selon Kramnik, est la Pawn-sideways (Pion de côtés), car elle donne lieu à des "motifs parfois assez "étranges" lorsqu'on est habitué aux échecs classiques". Les structures des pions deviennent très fluides et il est impossible de créer des faiblesses de pions permanentes".

Exemples

Vous trouverez ci-dessous un exemple de partie pour chacune des neuf variantes avec des extraits des commentaires de Kramnik donnés dans l'étude. Les cinq derniers sont présentés sous forme de vidéos intégrées, car notre interface ne peut pas gérer les règles alternatives ! (Nous y travaillons).

No-castling (échecs sans roquer)

"L'un des principaux avantages des échecs sans roquer est qu'il élimine pour les années à venir l'importance écrasante que revêt aujourd'hui la préparation théorique dans les échecs professionnels, et qu'il fait réfléchir les joueurs de manière créative dès le début de chaque partie", écrit Kramnik. "Cela conduirait inévitablement à un nombre considérablement plus élevé de parties décisives dans les tournois jusqu'à ce que la nouvelle théorie se développe, et il faudrait davantage de créativité pour gagner. Ces facteurs pourraient également accroître le nombre de tournois professionnels suivis par les amateurs d'échecs".

No-castling (10) (échecs sans roquer dans les 10 premiers coups)

"Le but principal de la restriction partielle du roque, en tant qu'ajustement hypothétique aux règles des échecs, serait de contourner la théorie des ouvertures", explique Kramnik. "En tant que telle, elle vise les échecs professionnels comme une option à envisager éventuellement. Le jeu lui-même ne change pas de manière significative, et AlphaZero essaie généralement de jouer des lignes plus lentes où le roque a effectivement lieu après les 10 premiers coups".

Pawn one square (Pion d'une case)

"Les règles et les motifs de base sont toujours pour la plupart les mêmes que dans les échecs classiques, mais la théorie des ouvertures change et devient complètement différente", écrit Kramnik. "Intuitivement, il semble qu'il devrait être plus difficile pour les blancs d'obtenir un avantage durable grâce à l'ouverture et de le convertir en victoire, mais comme il faudrait d'abord développer une nouvelle théorie, cela ne concernerait pas le jeu humain au début. Dans la plupart des parties d'AlphaZero, on peut remarquer que des positions plutôt typiques de milieu de jeu surviennent après la phase d'ouverture".

Stalemate=win (Pat=victoire)

"En regardant les parties d'AlphaZero, il semble qu'il y ait suffisamment de ressources défensives dans la plupart des positions de milieu de jeu pour que certains types de finales inférieures, ici perdantes en vertu de cette règle de pat victorieux, puissent être évités et défendus", juge Kramnik. "Un fort joueur peut en principe apprendre à se diriger vers ces positions pour en tirer profit, ou trouver des moyens d'y échapper".

Torpedo (Torpille)

Les pions deviennent très puissants dans la variante Torpedo", avance Kramnik. "Les pions passés constituent en particulier un atout très puissant et la valeur des pions change en fonction des circonstances et quand on se rapproche d'une finale. Toutes les possibilités d'attaque augmentent et cela favorise fortement le camp qui a l'initiative, ce qui fait de la prise d'initiative un élément crucial du jeu. Les pions sont très rapides, donc moins un atout stratégique mais beaucoup plus tactique qu'avant. Le jeu devient plus tactique de manière générale et demande plus de calculs par rapport aux échecs standards".

Semi-torpedo (Semi-torpille)

"La variante Semi-torpedo semble aboutir à plus de résultats décisifs que les échecs classiques, et moins que la variante Torpedo", d'après Kramnik. "C'est une variante intéressante, qui pourrait être considérée par ceux qui aiment la saveur générale du milieu de jeu en Torpedo, mais qui ne veulent pas abandonner la théorie existante des finales.

Pawn-back (Recul du pion)

La variante Pawn-back permet des structures de pions plus fluides et plus flexibles et pourrait potentiellement être intéressante pour les joueurs qui aiment ce genre de manœuvres stratégiques", analyse Kramnik. "Étant donné que la variante Pawn-back offre des ressources défensives supplémentaires, gagner avec les blancs semble être un peu plus difficile, donc la variante pourrait également plaire aux joueurs qui aiment la défense et aux attaquants à la recherche d'un défi".

Pawn-sideways (Pion de côtés)

"C'est la plus déroutante et la plus "étrange" de toutes les variantes que nous avons considérées", statue Kramnik. "Même après avoir regardé comment AlphaZero s'en débrouille, les principes du jeu restent quelque peu mystérieux - on ne sait pas exactement ce que chaque camp doit viser. Les motifs sont très différents, ce qui fait que de nombreux coups apparaissent visuellement très étranges. (...) Cette variante est très particulière et parfois difficile à comprendre, mais elle pourrait être intéressante pour les joueurs qui sont ouverts à l'expérimentation avec peu d'attaches au jeu original !

Self-capture (Auto-capture)

"J'aime beaucoup cette variante, j'irais même jusqu'à dire que pour moi, c'est simplement une version améliorée des échecs classiques", estime Kramnik. (...) "Indépendamment de son effet relativement mineur sur les ouvertures, les auto-captures ajoutent des motifs esthétiquement beaux dans les milieux de jeux et fournissent des options supplémentaires et des motifs gagnants dans les finales. (...) Pour conclure, je recommande vivement cette variante aux amateurs d'échecs qui apprécient la beauté du jeu par-dessus tout".

Ce document de 97 pages comprend de nombreux autres parties et explications de Kramnik qui sont à la fois instructives et amusantes. Vous pouvez le télécharger ici en PDF.

Mieux connaître PeterDoggers
Carlsen et So se partagent la victoire aux Rapide et Blitz de Saint-Louis

Carlsen et So se partagent la victoire aux Rapide et Blitz de Saint-Louis

Carlsen et Nakamura se partagent la victoire au Chess960 de Saint-Louis

Carlsen et Nakamura se partagent la victoire au Chess960 de Saint-Louis