Redatora na Exame
Publicado em 15 de abril de 2025 às 12h57.
Na última quinta-feira, 10, uma publicação viralizou no X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, do Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia do videogame Pokémon.
A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada no jogo —, o Claude seguia travado no Monte Moon desde o fim de fevereiro.
Gemini is literally ahead of Claude atm in pokemon after reaching Lavender Town
119 live views only btw, incredibly underrated stream pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) April 10, 2025
Após o post repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.
De acordo com as declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes no jogo e facilitava as decisões — algo que o Claude não tinha à disposição.
O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.
O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet no benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta extra criada pela empresa.
Já o segundo caso se trata da Meta, que ajustou uma versão do modelo Llama 4 Maverick para melhorar seu desempenho no teste LM Arena. A versão original do modelo teve uma pontuação significamente pior no mesmo teste.