alphazero

O processo de aprendizagem do AlphaZero é, até certo ponto, semelhante ao dos humanos. Um novo artigo da DeepMind, que inclui uma contribuição do 14º campeão mundial de xadrez Vladimir Kramnik , fornece forte evidência da existência de conceitos compreensíveis para humanos na rede de AlphaZero, embora AlphaZero nunca tenha visto um jogo de xadrez humano.

Como AlphaZero aprende xadrez? Por que ele faz certos movimentos? Que valores dá a conceitos como segurança ou mobilidade do rei? Como ele aprende as aberturas e como isso difere de como os humanos desenvolveram a teoria das aberturas? 

Perguntas como essas estão sendo discutidas em um novo artigo fascinante da DeepMind, intitulado Acquisition of Chess Knowledge in AlphaZero . Foi escrito por Thomas McGrath, Andrei Kapishnikov, Nenad Tomasev, Adam Pearce, Demis Hassabis, Been Kim e Ulrich Paquet junto com Kramnik. É a segunda cooperação entre DeepMind e Kramnik, depois de sua pesquisa no ano passado, quando eles usaram o AlphaZero para explorar o design de diferentes variantes do jogo de xadrez, com diferentes conjuntos de regras.

Codificando Conhecimento Conceitual Humano

Em seu último artigo, os pesquisadores tentaram um método para codificar o conhecimento conceitual humano, para determinar até que ponto a rede AlphaZero representa os conceitos humanos do xadrez. Exemplos de tais conceitos são o par de bispos, (des) equilíbrio material, mobilidade ou segurança do rei. Esses conceitos têm em comum o fato de serem funções pré-especificadas que encapsulam uma parte específica do conhecimento específico do domínio.

Alguns desses conceitos foram retirados da função de avaliação do Stockfish 8, como material, desequilíbrio, mobilidade, segurança do rei, ameaças, peões passados ​​e espaço. Stockfish 8 os usa como subfunções que fornecem pontuações individuais levando a uma avaliação “total” que é exportada como um valor contínuo, como “0,25” (uma ligeira vantagem para o branco) ou “-1,48” (uma grande vantagem para o preto ) Observe que as versões mais recentes do Stockfish se desenvolveram em redes neurais do tipo Alpha-Zero, mas não foram usadas neste artigo.

O terceiro tipo de conceito encapsula recursos de nível inferior mais específicos, como a existência de garfos, pinos ou arquivos contestados, bem como uma gama de recursos relacionados à estrutura do peão.

Tendo estabelecido essa ampla gama de conceitos humanos, a próxima etapa dos pesquisadores foi tentar encontrá-los dentro da rede AlphaZero, para a qual usaram um modelo de regressão linear esparso. Depois disso, eles começaram a visualizar o aprendizado do conceito humano com o que eles chamam de parcelas do tipo “e quando onde”: qual conceito é aprendido quando em tempo de treinamento e onde na rede.

De acordo com os pesquisadores, AlphaZero de fato desenvolve representações que estão intimamente relacionadas a uma série de conceitos humanos ao longo do treinamento, incluindo avaliação de alto nível da posição, movimentos e consequências potenciais e características posicionais específicas.

Um resultado interessante foi sobre desequilíbrio material. Como foi demonstrado no livro premiado de Matthew Sadler e Natasha Regan Game Changer: Estratégias inovadoras de xadrez do AlphaZero e a promessa de IA (Novo no xadrez, 2019), AlphaZero parece ver o desequilíbrio material de forma diferente de Stockfish 8. O artigo fornece evidências empíricas de que este é o caso no nível representacional: AlphaZero inicialmente “segue” a avaliação do material de Stockfish 8 mais e mais durante seu treinamento, mas em algum ponto, ele se afasta novamente.

Valor da peça e material

A próxima etapa dos pesquisadores foi relacionar os conceitos humanos à função de valor do AlphaZero. Um dos primeiros conceitos que examinaram foi o valor da peça, algo que um iniciante aprenderá ao começar a jogar xadrez. Os valores clássicos são nove para uma rainha, cinco para uma torre, três para o bispo e o cavalo e um para um peão. A figura à esquerda abaixo (retirada do papel) mostra a evolução dos pesos das peças durante o treinamento do AlphaZero, com os valores das peças convergindo para valores comumente aceitos.

Esquerda: A aproximação do valor da peça da rede neural do AlphaZero, conforme o AlphaZero treina. À direita: as contribuições de seis conceitos para a avaliação da rede neural do AlphaZero como trens do AlphaZero. Imagens cedidas por DeepMind.

A imagem à direita mostra que durante o treinamento do AlphaZero, o material se torna cada vez mais importante nos primeiros estágios do aprendizado de xadrez (consistente com o aprendizado humano), mas atinge um patamar e, em algum ponto, os valores de conceitos mais sutis como mobilidade e a segurança do rei está se tornando mais importante enquanto o material realmente perde importância.

AlphaZero Training vs. Conhecimento Humano Sobre a História

Outra parte do artigo é dedicada a comparar o treinamento do AlphaZero com a progressão do conhecimento humano ao longo da história. Os pesquisadores ressaltam que há uma diferença marcante entre a progressão das preferências de movimento do AlphaZero ao longo de sua história de etapas de treinamento e o que se sabe sobre a progressão da compreensão humana do xadrez desde o século 15:

AlphaZero começa com um livro de abertura uniforme, permitindo-lhe explorar todas as opções igualmente, e restringe amplamente as opções plausíveis ao longo do tempo. Jogos humanos registrados nos últimos cinco séculos apontam para um padrão oposto: uma preferência inicial esmagadora por 1.e4, com uma expansão de opções plausíveis ao longo do tempo.

Os pesquisadores comparam os jogos que AlphaZero está jogando contra si mesmo com uma grande amostra retirada do ChessBase Mega Database, começando com jogos do ano de 1475 até o século 21.

Os humanos inicialmente jogavam 1.e4 quase exclusivamente, mas 1.d4 era um pouco mais popular no início do século 20, logo seguido pela popularidade crescente de sistemas mais flexíveis como 1.c4 e 1.Nf3. AlphaZero, por outro lado, tenta uma ampla gama de movimentos iniciais no estágio inicial de seu treinamento antes de começar a valorizar os movimentos “principais” mais alto.

A preferência do AlphaZero por movimentos de abertura ao invés do tempo de treinamento. (Três "sessões" de treinamento diferentes.) Imagens cedidas por DeepMind.
A preferência do AlphaZero por movimentos de abertura ao invés do tempo de treinamento. (Três "sessões" de treinamento diferentes.) Imagens cedidas por DeepMind.

The Berlin Ruy Lopez

Um exemplo mais específico fornecido é sobre a variação berlinense de Ruy Lopez (o movimento 3 … Cf6 após 1.e4 e5 2.Cf3 Cc6 3.Bb5), que só se tornou popular no nível superior no início do século 21, após Kramnik usou-o com sucesso em sua luta pelo campeonato mundial com GM Garry Kasparov em 2000. Antes disso, era considerado um tanto passivo e ligeiramente melhor para as brancas, com o movimento 3 … a6 sendo preferível.

Os pesquisadores escrevem:

Olhando para trás no tempo, demorou um pouco para que a teoria humana da abertura do xadrez avaliasse completamente os benefícios da defesa de Berlim e estabelecesse maneiras eficazes de jogar com as pretas nesta posição. Por outro lado, AlphaZero desenvolve uma preferência por esta linha de jogo muito rapidamente, ao dominar os conceitos básicos do jogo. Isso já destaca uma diferença notável na evolução do jogo de abertura entre os humanos e a máquina.

AlphaZero contra humanos na "compreensão" do Berlin Ruy Lopez. Imagens cedidas por DeepMind.
AlphaZero contra humanos na "compreensão" do Berlin Ruy Lopez. Imagens cedidas por DeepMind.

Notavelmente, quando diferentes versões do AlphaZero são treinadas do zero, metade delas prefere fortemente 3… a6, enquanto a outra metade prefere fortemente 3… Nf6! É interessante porque significa que não existe um bom jogador de xadrez “único”. A tabela a seguir mostra as preferências de quatro redes neurais AlphaZero diferentes:

As preferências de rede anteriores do AlphaZero após 1. e4 e5 2. Nf3 Nc6 3. Bb5, para quatro execuções de treinamento diferentes do sistema (quatro versões diferentes de AlphaZero). O prior é dado após um milhão de etapas de treinamento. Às vezes AlphaZero converge para se tornar um jogador que prefere 3… a6, e às vezes AlphaZero converge para se tornar um jogador que prefere responder com 3… Nf6.

Na mesma linha, AlphaZero desenvolve sua própria “teoria” de abertura para uma gama muito mais ampla de aberturas ao longo de seu treinamento. Em algum ponto, 1.d4 e 1.e4 são descobertos como bons movimentos de abertura e são rapidamente adotados. Da mesma forma, a continuação preferida de AlphaZero após 1.e4 e5 é determinada em outra janela temporal curta. A figura abaixo ilustra como 2.d4 e 2.Cf3 são aprendidos rapidamente como movimentos brancos razoáveis, mas 2.d4 é então descartado quase tão rapidamente em favor de 2.Cf3 como uma resposta padrão. 

AlphaZero aprendendo o melhor movimento após 1.e4 e5. Imagem cedida por DeepMind.
AlphaZero aprendendo o melhor movimento após 1.e4 e5. Imagem cedida por DeepMind.

Avaliação qualitativa de Kramnik

A contribuição de Kramnik para o artigo é uma avaliação qualitativa, na tentativa de identificar temas e diferenças no estilo de jogo do AlphaZero em diferentes fases de sua formação. O 14º campeão mundial recebeu jogos de amostra de quatro fases diferentes para olhar.

De acordo com Kramnik, no estágio inicial de treinamento, AlphaZero tem “uma compreensão rudimentar do valor material e falha em avaliar com precisão o material em posições complexas. Isso leva a sequências de troca potencialmente indesejáveis ​​e, por fim, perder jogos no material”. No segundo estágio, AlphaZero parecia ter “uma sólida compreensão do valor material, sendo assim capaz de capitalizar sobre a fraqueza da avaliação do material” da versão inicial.

No terceiro estágio, Kramnik sente que o AlphaZero tem um melhor entendimento da segurança do rei em posições desequilibradas. Isso se manifesta na segunda versão “potencialmente subestimando os ataques e sacrifícios materiais de longo prazo da terceira versão, bem como a segunda versão superestimando seus próprios ataques, resultando em posições perdidas.”

Em sua quarta etapa do treinamento, tem um “entendimento muito mais profundo” de quais ataques terão sucesso e quais falharão. Kramnik percebe que às vezes aceita os sacrifícios desempenhados pela “terceira versão”, passa a defender bem, mantém a vantagem material e, por fim, converte-se em vitória.

Outro ponto que Kramnik ressalta, que parece semelhante a como os humanos aprendem xadrez, é que as habilidades táticas parecem preceder as habilidades posicionais conforme o AlphaZero aprende. Ao gerar jogos de auto-jogo em conjuntos de abertura separados (por exemplo, o Berlin ou o Queen’s Gambit Declinado no set “posicional” e o Najdorf e King’s Indian no set “tático”), os pesquisadores conseguem fornecer evidências circunstanciais, mas observam que além disso é necessário trabalhar para entender a ordem em que as habilidades são adquiridas.

Implicações fora do xadrez

Por muito tempo, acreditou-se que os sistemas de aprendizado de máquina aprendem representações não interpretáveis ​​que têm pouco em comum com a compreensão humana do domínio em que são treinados. Em outras palavras, como e o que a IA própria ensina é, em grande parte, um jargão para os humanos.

Com seu último artigo, os pesquisadores forneceram fortes evidências da existência de conceitos compreensíveis por humanos em um sistema de IA que não foi exposto a dados gerados por humanos. A rede de AlphaZero mostra o uso de conceitos humanos, embora AlphaZero nunca tenha visto um jogo de xadrez humano.

Isso pode ter implicações fora do mundo do xadrez. Os pesquisadores concluíram:

O fato de que os conceitos humanos podem ser localizados até mesmo em um sistema sobre-humano treinado pelo jogo pessoal amplia a gama de sistemas nos quais devemos esperar encontrar conceitos compreensíveis por humanos. Acreditamos que a capacidade de encontrar conceitos compreensíveis por humanos na rede AZ indica que um exame mais detalhado revelará mais.

O co-autor Nenad Tomasev comentou com Chess.com que, para ele pessoalmente, estava realmente curioso para considerar se existe uma progressão “natural” da teoria do xadrez:

Mesmo no contexto humano – se fôssemos “reiniciar” a história, voltar no tempo – a teoria do xadrez teria se desenvolvido da mesma maneira? Havia uma série de escolas de pensamento proeminentes em termos de compreensão geral dos princípios do xadrez e posições no meio do jogo: a importância do dinamismo versus estrutura, ataques materiais versus sacrificais, desequilíbrio material, a importância do espaço versus a escola hipermoderna que convida superextensão para contra-ataque, etc. Isso também informava as aberturas que eram jogadas. Olhando para essa progressão, o que não está claro é se isso teria acontecido da mesma forma novamente. Talvez algumas peças do conhecimento do xadrez e algumas perspectivas sejam simplesmente mais fáceis e mais naturais para a mente humana compreender e formular? Talvez o processo de refiná-los e expandi-los tenha uma trajetória linear, ou não? Não podemos realmente reiniciar a história, então só podemos adivinhar qual seria a resposta.

No entanto, quando se trata de AlphaZero, podemos retreá-lo muitas vezes – e também comparar as descobertas com o que vimos anteriormente no jogo humano. Podemos, portanto, usar o AlphaZero como uma placa de Petri para essa questão, ao vermos como ele adquire conhecimento sobre o jogo. Acontece que existem semelhanças e diferenças em como ele constrói sua compreensão do jogo em comparação com a história humana. Além disso, embora haja algum nível de estabilidade (os resultados são concordantes em diferentes execuções de treinamento), não é de forma alguma absoluta (às vezes a progressão do treinamento parece um pouco diferente, e diferentes linhas de abertura acabam sendo preferidas).

Bem, esta não é de forma alguma uma resposta definitiva para o que é, para mim pessoalmente, uma questão fascinante. Ainda há muito em que pensar aqui. No entanto, esperamos que nossos resultados forneçam uma perspectiva interessante e nos possibilitem começar a pensar um pouco mais profundamente sobre como aprendemos, crescemos, melhoramos – a própria natureza da inteligência e como ela vai desde uma folha em branco até o que é uma compreensão profunda de um domínio muito complexo como o xadrez.

Kramnik comentou com Chess.com:

“Existem duas coisas principais que podemos tentar descobrir com este trabalho. Uma é: como o AlphaZero aprende o xadrez, como ele melhora? Isso é realmente muito importante. Se um dia conseguirmos entendê-lo totalmente, talvez possamos pode interpretá-lo no processo de aprendizagem humana.

Em segundo lugar, acredito que é fascinante descobrir que existem certos padrões que o AlphaZero considera significativos, que na verdade fazem pouco sentido para os humanos. Essa é minha impressão. Isso na verdade é um assunto para pesquisas futuras, na verdade, eu estava pensando que pode ser facilmente que estejamos perdendo alguns padrões muito importantes no xadrez, porque afinal, AlphaZero é tão forte que se usar esses padrões, eu suspeito que eles fazem senso. Esse também é um assunto muito interessante e fascinante de entender, se talvez nossa maneira de aprender xadrez, de melhorar no xadrez, seja na verdade bastante limitada. Podemos expandir um pouco com a ajuda do AlphaZero, de entender como ele vê o xadrez. “

Fonte: Chess.com

Materiais Gratuitos

Materiais Gratuitos

Receba nossos E-books diretamente no seu E-mail.

Não enviamos spam. Seu e-mail está 100% seguro!

Sobre o Autor

Paulo Silva
Paulo Silva

Criador da plataforma Xadrez Forte. Graduado em Engenharia Florestal e discente de Ciência da Computação. No xadrez, atua como jogador, professor e árbitro regional de xadrez filiado à Federação de Xadrez do Amapá.

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *