Seleccione Edição
Login

A máquina que vence os mestres do pôquer e na qual o Pentágono e o Facebook apostam

Apoio militar a uma inteligência artificial que derrota os melhores jogadores de cartas reabre o debate sobre o futuro dessa tecnologia

poker
Sandholm, à esquerda, de gravata, e Brown, com um laptop na mão, durante uma experiência do Libratus contra campeões de pôquer. Carnegie Mellon

A inteligência artificial e seus usos estão no centro do debate da comunidade científica. Muitas vozes do setor se levantaram para alertar sobre os perigos de sua aplicação no campo de batalha. Que existam cientistas, engenheiros e inventores desenvolvendo tecnologias que servem para matar evoca a caixa de Pandora que foi aberta no Projeto Manhattan, quando os melhores cientistas daquela geração deram à luz a bomba atômica. Esse episódio, o uso da ciência para matar em uma escala inimaginável, foi um trauma monumental entre os físicos da época. Alguns especialistas em inteligência artificial não querem que a mesma coisa lhes aconteça depois de criarem máquinas de matar autônomas e lançam iniciativas para evitá-lo.

Em pleno debate, a revista Science publica nesta quinta-feira uma experiência de inteligência artificial aplicada ao pôquer. Mas a parte mais interessante está nas últimas linhas do artigo, na seção de agradecimentos. O trabalho, que apresenta um novo programa capaz de derrotar cinco campeões de pôquer ao mesmo tempo, conta com o apoio do Escritório de Pesquisas do Exército dos Estados Unidos. E também é parcialmente financiado pelo Facebook, a rede social com mais de dois bilhões de usuários. Para que querem uma máquina que ganha no pôquer?

Poucas atividades humanas resumem tão bem a dificuldade de administrar a falta de informação como o pôquer (com a permissão do mus [tradicional jogo de cartas espanhol], é claro). Sem conhecer as cartas dos adversários, o jogador deve tomar decisões com base em sua própria mão e na escassa informação que os outros lhe dão, deliberadamente ou não. Não em vão, fazer cara do pôquer é a melhor metáfora para expressar essa capacidade de lidar com o segredo sem dar uma pista para o resto dos envolvidos.

Esse cenário, chamado informação imperfeita, representa um imenso desafio para uma máquina: quando joga xadrez ou damas contra um humano sabe o que está no tabuleiro, não decide cegamente. Em 2017, a máquina Libratus superou esse desafio, mas na versão mais simples: jogando um contra um diante de um ser humano. Os jogos de soma zero, em que o ganho de um é a perda do outro, são razoavelmente simples de enfocar para uma máquina quando ela compete contra um único rival. Mas se colocarmos cinco seres humanos na mesa, todos grandes campeões de pôquer, conseguir a vitória é muito mais complexo.

Esse é o desafio colocado pela equipe de pesquisadores que criou o Libratus, que pertence à Universidade Carnegie Mellon e que colabora com a divisão de inteligência artificial do Facebook. E eles conseguiram, conforme publicam na revista Science: “Neste artigo descrevemos a Pluribus, uma inteligência artificial capaz de derrotar os profissionais humanos de elite no pôquer Texas Hold’em sem limite para seis jogadores, o formato de pôquer mais jogado no mundo”. A Pluribus aprende a ganhar do zero, jogando contra cinco versões de si mesma, sem indicações nem conhecimento de partidas humanas. E desenvolve suas próprias estratégias ganhadoras, independentemente do saber acumulado pelos seres humanos.

A empresa do cientista tem dois contratos com o Pentágono de 10 milhões de dólares no total. Sua universidade, a Carnegie Mellon, tem um projeto de 72 milhões de dólares

“A capacidade de vencer outros cinco outros jogadores em um jogo tão complicado abre novas oportunidades para usar a inteligência artificial na resolução de uma grande variedade de problemas do mundo real”, diz o principal autor dessa conquista, Tuomas Sandholm, que em 2017 derrotou profissionais de pôquer em partidas a dois com seu programa Libratus. Sandholm, que tem quase duas décadas dedicadas a conseguir que as máquinas ganhem no pôquer, desenvolveu algoritmos com aplicações tão importantes como decidir como organizar a doação e o transplante de órgãos nos EUA.

Depois do sucesso do Libratus, no fim de 2017, Sandholm e seu discípulo Noam Brown receberam uma chuva de prêmios e reconhecimentos. Uma máquina capaz de melhorar os seres humanos gerenciando cenários nos quais falta informação é uma grande conquista. Naquele momento, Sandholm criou a empresa Strategy Robot para comercializar aplicações governamentais e de segurança aos desenvolvimentos tecnológicos de seu laboratório: estratégia e tática militar, jogos de guerra, inteligência, diplomacia, segurança cibernética e assim por diante. E com sua empresa Strategic Machine comercializa aplicações civis: gestão de negociações, investimentos bancários, campanhas políticas, mercado de eletricidade, etc.

No pôquer a máquina enfrenta um cenário de informação imperfeita: quando joga xadrez ou damas contra um humano sabe o que está no tabuleiro

Posteriormente, a Strategy Robot assinou um contrato com o Pentágono, como adiantou a revista Wired, no valor de quase 9 milhões de euros (cerca de 38 milhões de reais), através da Unidade de Inovação para a Defesa, criada pelo Pentágono para trabalhar com Silicon Valley. Também tem outro contrato de quase um milhão em vigor, através da DARPA (Agência de Projetos de Pesquisa Avançados de Defesa) para aplicar esses jogos de informação imperfeita na tomada de decisões militares. No desenvolvimento da Pluribus, a nova máquina que Sandholm e Brown apresentam na Science, colaborou o Escritório de Pesquisas do Exército, cujo objetivo é financiar pesquisas no meio acadêmico.

Para essa pesquisa, também contaram com o apoio do Facebook. Brown está fazendo seu doutorado universitário na divisão de inteligência artificial da rede social. A empresa de Mark Zuckerberg pagou 50.000 euros a 15 campeões profissionais de pôquer, que dividiram o montante de acordo com seus méritos, para que jogassem 10.000 mãos durante 12 dias contra a máquina. Também recebeu financiamento da Fundação Nacional para a Ciência dos EUA.

Em um comunicado de imprensa, a universidade esclarece que a Pluribus se baseia na tecnologia desenvolvida no laboratório de Sandholm. “Também inclui um código específico de pôquer, escrito como colaboração entre a Carnegie Mellon e o Facebook para este estudo, que não será usado em aplicações destinadas à defesa.” E acrescenta: “Para qualquer outro tipo de uso, as partes concordaram que podem usar o código como desejarem”. Essa máquina não terá aplicações militares, dizem, mas a empresa de Sandholm desenvolve as conquistas de seu laboratório para o Pentágono, nessa mesma área de conhecimento.

Sandholm, que desenvolveu um algoritmo para organizar transplantes nos EUA, criou uma empresa para comercializar suas conquistas no campo militar

Em março, o Exército dos EUA comprometeu 72 milhões de dólares para um projeto de inteligência artificial para “investigar e descobrir capacidades que melhorem significativamente a eficácia da missão em todo o Exército ao aumentar o número de soldados, otimizar as operações, melhorar a preparação e reduzir as baixas”. O consórcio é liderado pela Carnegie Mellon.

“Desconheço quais usos específicos podem interessar ao Facebook e ao Exército”, admite a especialista em inteligência artificial Nuria Oliver, “mas entendo que é aplicar esse desenvolvimento à tomada de decisões e à previsão do comportamento humano”. Oliver, doutora nesse campo pelo MIT e membro da Academia Real de Engenharia, diz que essa tecnologia pode provocar problemas éticos no campo da autonomia humana, uma vez que ao ser capaz de prever o comportamento também pode induzir ações, “o que seria uma potencial violação da autonomia”. Além disso, ela tem dúvidas do ponto de vista da transparência de seu uso e no objetivo de minimizar o impacto negativo: “não ser maléfico”.

Há um mês e meio, também foi publicada na Science outra conquista da inteligência artificial contra especialistas humanos. Nesse caso, foi em um videogame em que se atira no inimigo, o Quake III Arena, que combina estratégia, ação e falta de informação em alguns momentos nos quais não se sabe o que o adversário está fazendo. Essa conquista foi assinada pela DeepMind, a empresa do Google dedicada à inteligência artificial. Mas a DeepMind se comprometeu a evitar o uso da inteligência artificial para desenvolver armas autônomas, como vários acadêmicos e outras empresas desse campo. Sandholm acredita que as preocupações com o uso militar dessas tecnologias são exageradas, pois manterão os EUA a salvo. “Acredito que a inteligência artificial tornará o mundo um lugar muito mais seguro”, disse o cientista à Wired em janeiro. Pouco antes, o Google teve de cancelar sua participação no projeto Maven, uma colaboração com o Pentágono, por uma revolta de seus próprios funcionários, que se recusaram a melhorar a visão dos drones do Exército, o que facilitaria sua função mortífera. Mais uma vez, a ciência e a tecnologia diante de seus demônios.

O Facebook pagou 50.000 euros a 15 campeões profissionais de pôquer e poderá usar o programa “como desejar”

Os blefes da máquina

Uma das chaves dessa conquista publicada pela Science foi obter que a Pluribus conseguisse simplificar enormemente a quantidade incalculável de informações e decisões possíveis que são postas em marcha em um jogo tão complexo. O sucesso dessa inteligência artificial é exatamente o contrário daquele DeepBlue que derrotou Garry Kasparov. Em vez de ter tudo em mente na hora de decidir a jogada, trata-se de conseguir simplificar as variáveis para se concentrar de forma intuitiva nas jogadas vencedoras.

Por exemplo, a Pluribus não tenta adiantar o que acontecerá até o final do jogo, porque possui um algoritmo de busca que limita deliberadamente seu olhar para o futuro. Além disso, os pesquisadores descobriram que, de todas as opções que os jogadores rivais têm em mente, à máquina bastava levar em conta apenas cinco para vencer. A capacidade de abstração da Pluribus se manifesta em mais dois aspectos: os valores apostados e as diferentes jogadas. Por exemplo, para máquina não importa se a aposta é de 200 ou 201, e suas apostas se concentram em algumas opções limitadas.

Da mesma forma, para não ter de estudar cada uma das infinitas combinações de letras separadamente, a Pluribus as agrupa: uma sequência de naipes até o dez e uma sequência de naipes até o nove são, para a máquina, estrategicamente a mesma coisa. “A abstração de informações reduz drasticamente a complexidade do jogo, mas pode eliminar diferenças sutis que são importantes para o desempenho sobre-humano. Por isso, durante o jogo real contra humanos, a Pluribus só a usa para raciocinar sobre situações em futuras rodadas de apostas, nunca na rodada de apostas atual”, detalha o estudo. Essa máquina, por enquanto, se concentra em suas próprias estratégias e não busca explorar tendências em seus oponentes, diz o estudo. Combinados, esses avanços tornaram possível rodar a Pluribus usando muito pouca capacidade de processamento e memória, o equivalente a menos de 150 dólares em recursos de computação na nuvem, de acordo com o Facebook.

O Libratus, a versão anterior do programa, aprendeu a blefar sozinho. Um dos aspectos mais interessantes da Pluribus é a sua capacidade de fazer cara de pôquer. Não tem uma expressão corporal que possa revelar sua jogada, mas os profissionais aprendem a reconhecer padrões no jogo dos outros: como apostam quando têm boas cartas, como reagem quando são desafiados, etc. “Sua maior fortaleza é a habilidade para usar estratégias mistas”, disse Darren Elías, jogador profissional que detém o recorde de títulos conquistados no World Poker Tour. “É exatamente isso que os humanos estão tentando fazer. É uma questão de execução para os humanos: fazer isso de uma maneira perfeitamente aleatória e fazê-lo de maneira consistente. A maioria das pessoas simplesmente não consegue”, diz o jogador. A Pluribus calcula como atuaria com cada mão possível e então decide uma estratégia equilibrada com todas essas possibilidades: um blefe algorítmico para desconcertar os adversários.

MAIS INFORMAÇÕES