TI (Getty Images)
Lucas Agrela
Publicado em 13 de janeiro de 2015 às 13h33.
Um novo algoritmo foi capaz de vencer uma partida de pôquer, modalidade Texas Hold'em com dois jogadores, pela primeira vez. A novidade não é um passo somente para que os computadores possam ganhar todas as suas fichas em jogos online, mas também porque permite a criação de algoritmos que possam lidar com cenários do mundo real com graus similares de incerteza.
As soluções para jogos de informações imperfeitas requerem que os computadores lidem com a complicação adicional de não saber exatamente qual é o estado do jogo, como não saber quais são as cartas do oponente, escreve Neil Burch, estudante de Ph.D de ciência da computação na Universidade de Alberta, no Canadá. Essas técnicas requerem mais memória e poder computacional.
Chamado CFR+, o algoritmo usa uma versão melhorada do CFR (counterfactual regret minimization, algo como minimização de arrependimento contrafactual), que, no passado, tentaram vencer jogos de pôquer aplicando uma técnica de redução do arrependimento para definir o melhor resultado e fazendo uma média entre a estratégia atual e a anterior.
O problema dos algoritmos CFR era a enorme necessidade por memória computacional, já que eram necessários 262 TB nesse processo. Ou seja, seriam precisos 268 288 iPhones 6 para vencer um oponente no pôquer nesse caso, como indica o IEEE Spectrum.
Com o uso de uma tecnologia de compressão, foram necessários 11 TB para armazenamento de valores contrafactuais e 6 TB para computar a estratégia principal. As requisições de memória foram distribuídas em um cluster de 200 nós computacionais (nodes). Cada node continha 32 GB de RAM, 24 núcleos AMD de 2,1 GHz e 1 TB de disco.
O cálculo para a melhor solução, entretanto, ainda é demorado. Foram 68 dias e meio com 1 500 máquinas dispostas ao longo do prédio de pesquisa da universidade.
O CFR+ traz uma série de melhorias, como uma forma diferente de lidar com a redução de arrependimento e o uso da estratégia mais recente, sem tirar uma média com as anteriores.
O algoritmo foi divulgado por Burch e seus coautores na Science. Estatisticamente, não é possível distinguir a solução do algoritmo de uma partida perfeita durante uma vida jogando pôquer. O artigo define "uma vida" como 200 partidas de pôquer por hora durante 12 horas por dia ao longo de 70 anos.
De certa forma, o CFR+ ainda funciona como os antigos algoritmos CFR, uma vez que desenvolve melhores soluções ao jogar milhares de partidas, mas a velocidade de criação de jogadas é muito maior devido à sua eficiência. São menos etapas, com passos largos em direção à melhor solução.