AlphaZero Esmaga Stockfish em Novo Confronto de 1.000-Partidas
AlphaZero chocou hoje de novo o mundo do xadrez com novos resultados.

AlphaZero Esmaga Stockfish em Novo Confronto de 1.000-Partidas

pete
pete
|
0 | Cobertura de Evento de Xadrez

Em notícias reminescentes da inicial onda de choque de Dezembro do ano passado sobre o AlphaZero, a firma de inteligência artificial DeepMind publicou hoje resultados espantosos de uma versão atualizada do projeto de xadrez de aprendizagem de máquina (machine-learning). 

Os resultados não deixam dúvidas, mais uma vez, de que AlphaZero joga o xadrez mais forte do mundo.

O AlphaZero atualizado esmagou Stockfish 8 num novo confronto de 1.000-partidas, pontuando +155 -6 =839.

(Vê em baixo três partidas ilustrativas deste confronto com análise pelo Stockfish 10 e vídeo-análise pelo GM Robert Hess.)

AlphaZero também levou a melhor sobre Stockfish numa série de confrontos com disparidades de tempo, derrotando convincentemente o programa tradicional mesmo com uma desvantagem de tempo de 10 para um. 

Em confrontos adicionais, o novo AlphaZero derrotou a "última versão" de Stockfish, com resultados virtualmente idênticos aos do confronto vs Stockfish 8, segundo DeepMind. A cópia pré-publicação do artigo do jornal, que está datada de 7 de Dezembro de 2018, não especifica a exata versão utilizada.

[Atualização: A publicação de hoje do artigo de jornal completo especifica que o confronto foi contra a última versão de Stockfish, que em 13 de Janeiro de 2018 era Stockfish 9.]

O programa de aprendizagem de máquina venceu também todos os confrontos contra "uma variante de Stockfish que utiliza um forte livro de aberturas," segundo DeepMind. Adicionar o livro de aberturas não parece ter ajudado Stockfish, que venceu finalmente um número substancial de partidas quando AlphaZero jogava de Pretas—mas não suficientes para vencer o confronto.

alphazero vs stockfish

Os resultados de AlphaZero (vitórias verde, derrotas vermelho) vs a última versão de Stockfish e vs Stockfish com um forte livro de aberturas. Imagem por DeepMind via Science.

Os resultados serão publicados num próximo artigo pelos pesquisadores de DeepMind no jornal Science e foram fornecidos a meios de comunicação de xadrez selecionados por DeepMind, que está baseada em Londres e é propriedade de Alphabet, a empresa-mãe da Google.

O confronto de 1.000-partidas foi jogado no início de 2018. No confronto, ambos AlphaZero e Stockfish receberam três horas em cada partida e um incremento adicional de 15-segundos por lance. Este controlo de tempo parecia tornar obsoleto um dos maiores argumentos contra o impacto do confronto do ano anterior, nomeadamente que o controlo de tempo de 2017 de um-minuto por lance colocava Stockfish em desvantagem.

Com três horas mais o incremento de 15-segundos, esse argumento não podia ser feito, uma vez que essa é uma enorme quantidade de tempo de jogo para qualquer programa de computador. Em partidas com disparidades de tempo, AlphaZero foi dominante até desigualdades de 10-para-1. O Stockfish só começou a ultrapassar AlphaZero na pontuação quando as desigualdades alcançaram 30-para-1.

alphazero vs stockfish

Os resultados de AlphaZero (vitórias verde, derrotas vermelho) vs Stockfish 8 em confrontos com disparidades de tempo. Imagem por DeepMind via Science.

Os resultados de AlphaZero em confrontos com disparidades de tempo sugerem que este não é apenas muito mais forte do que qualquer programa de xadrez tradicional, mas que também utiliza uma pesquisa de lances muito mais eficiente. De acordo com DeepMind, AlphaZero utiliza uma pesquisa Monte Carlo em forma de árvore, e examina cerca de 60.000 posições por segundo, comparado com os 60 milhões de Stockfish.

alphazero vs stockfish

Uma ilustração de como o AlphaZero procura por lances de xadrez. Imagem por DeepMind via Science.

O que podem os fãs de xadrez concluir depois de ler estes resultados? O AlphaZero solidificou o seu estatuto como um dos jogadores de elite de xadrez no mundo. Mas os resultados são ainda mais intrigantes se acompanhas a habilidade da inteligência artificial de adquirir mestria geral de jogo.

Segundo o artigo de jornal, o algoritmo atualizado de AlphaZero é idêntico em três jogos desafiantes: xadrez, shogi, e go. Esta versão de AlphaZero foi capaz de derrotar os melhores jogadores computadorizados de todos os três jogos depois de apenas algumas horas de auto-treino, a partir simplesmente das regras mais básicas destes jogos.

Os resultados do AlphaZero atualizado chegam exatamente um ano depois desde que DeepMind revelou os primeiros, resultados históricos de AlphaZero num confronto surpresa vs Stockfish que mudou o xadrez para sempre.

Desde então, um projeto de código-aberto chamado Lc0 tentou replicar o sucesso de AlphaZero, e o projeto tem fascinado os fãs de xadrez. Lc0 compete agora juntamente com o campeão Stockfish e o resto dos melhores programas de xadrez do mundo no Campeonato de Computadores de Xadrez do Chess.com que está a decorrer.

Os fãs de CCC ficarão satisfeitos em ver que algumas das partidas do novo AplhaZero incluem "fawn pawns," a nova alcunha do chat do CCC para os peões avançados solitários que limitam a posição dum oponente. Talvez o estabelecimento destes peões seja uma estratégia crítica de vitória, uma vez que parece que AlphaZero e Lc0 a aprenderam independentemente.

DeepMind divulgou 20 partidas ilustrativas escolhidas pelo GM Matthew Sadler do confronto de 1.000-partidas. O Chess.com escolheu três dessas partidas com uma análise profunda pelo Stockfish 10 e uma vídeo-análise pelo GM Robert Hess. Podes descarregar as 20 partidas ilustrativas no fundo deste artigo, analisadas pelo Stockfish 10, e quatro partidas de amostra analisadas pelo Lc0.

Atualização: Depois deste artigo ter sido publicado, DeepMind divulgou 210 partidas ilustrativas que podes descarregar aqui.

Partida selecionada 1 com análise pelo Stockfish 10:

Vídeo análise da partida 1 pelo GM Robert Hess:

Partida selecionada 2 com análise pelo Stockfish 10:

Vídeo análise da partida 2 pelo GM Robert Hess:

Partida selecionada 3 com análise pelo Stockfish 10:

Vídeo análise da partida 3 pelo GM Robert Hess:

A IM Anna Rudolf fez também uma vídeo-análise de uma das partidas de amostra, a que chamou de  "brilhantismo de AlphaZero."

A nova versão de AlphaZero ensinou-se a si mesma a jogar xadrez a partir simplesmente das regras do jogo, usando técnicas de aprendizagem de máquina para atualizar continuamente as suas redes neurais. Segundo DeepMind, 5.000 TPUs (unidades de tensores de processamento da Google, um circuito integrado de um aplicativo especifico para inteligência artificial) foram utilizados para gerar o primeiro conjunto de auto-partidas, e depois 16 TPUs foram usados para treinar as redes neurais.

O tempo total de treino no xadrez, do início ao fim, foi de nove horas. Segundo DeepMind, foram necessárias apenas quatro horas de treino para o AplhaZero ultrapassar Stockfish; às nove horas este estava muito mais avançado do que o programa que é o campeão mundial.

Para as partidas em particular, o Stockfish utilizou 44 núcleos de CPU (unidades de processamento central) e o AlphaZero utilizou uma única máquina com quatro TPUs e 44 núcleos de CPU. O Stockfish tinha um hash size de 32GB e usou uma tabela de dados de finais syzygy.

alphazero vs stockfish

Os resultados de AlphaZero vs. Stockfish nas aberturas humanas mais populares. Na barra à esquerda, AlphaZero joga de Brancas; na barra à direita, AlphaZero joga de Pretas. Imagem por DeepMind via Science. Clica na imagem para uma versão alargada. 

As partidas de amostra divulgadas foram consideradas impressionantes por profissionais de xadrez a quem lhes foi dado acesso. O GM Robert Hess categorizou as partidas como "imensamente complicadas."

O próprio DeepMind assinalou o estilo invulgar da sua criação no artigo de jornal:

"Em várias partidas, AlphaZero sacrificou peças por uma vantagem estratégica a longo termo, sugerindo que este tem uma avaliação posicional mais fluída, mais dependente do contexto do que as avaliações baseadas em regras utilizadas pelos prévios programas de xadrez," disseram os pesquisadores de DeepMind.

A firma de IA (inteligência artificial) realçou também a importância de utilizar a mesma versão de AlphaZero em três partidas diferentes, promovendo-a como uma descoberta importante em inteligência geral de jogo:

"Estes resultados trazem-nos um passo mais perto de realizar uma ambição de longa data da inteligência artificial: um sistema geral de jogo que pode aprender a adquirir mestria de qualquer jogo," disseram os pesquisadores de DeepMind.

Podes descarregar as 20 partidas ilustrativas fornecidas por DeepMind e analisadas pelo Chess.com usando Stockfish 10 num computador poderoso. O primeiro conjunto de partidas contem 10 partidas sem um livro de aberturas, e o segundo conjunto contem partidas com aberturas do TCEC de 2016 (Top Chess Engine Championship-Campeonato de Programas de Xadrez de Elite).

Descarregar PGN:

20 partidas com análise pelo Stockfish 10:

4 partidas selecionadas analisadas pelo Lc0:

Gostas do AlphaZero? Podes ver o projeto de xadrez de aprendizagem de máquina que este inspirou, LcO, no Campeonato de Computadores de Xadrez que está a decorrer agora.


Gostarias de receber mais conteúdo de xadrez em Português? Segue estes canais!

null  /chesscom.pt null  /chesscom_pt null  /chesscomPT null  /chesscom_xadrez
Mais de pete
Stockfish Vence Campeonato Rápido de Xadrez de Computadores; Lc0 Termina 3º

Stockfish Vence Campeonato Rápido de Xadrez de Computadores; Lc0 Termina 3º

O Novo Campeonato de Computadores de Xadrez

O Novo Campeonato de Computadores de Xadrez