Repórter
Publicado em 5 de março de 2025 às 10h05.
Última atualização em 5 de março de 2025 às 10h05.
Os cientistas Andrew Barto e Richard Sutton foram anunciados, nesta quarta-feira, 5, como vencedores do Prêmio Turing, considerado o "Nobel da computação". A premiação, concedida pela Association for Computing Machinery (ACM), reconheceu os pesquisadores pelo desenvolvimento do aprendizado por reforço, técnica que permitiu avanços em inteligência artificial (IA), como AlphaGo e ChatGPT. A dupla dividirá o prêmio de US$ 1 milhão.
O conceito surgiu a partir de estudos de Barto, na Universidade de Massachusetts Amherst, na década de 1970, e foi aprimorado com a chegada de Sutton, em 1978. Inspirado no comportamento de neurônios, o método propõe que máquinas aprendam por meio de tentativa e erro, associando ações bem-sucedidas a uma espécie de "recompensa" digital.
Andrew Barto e Richard Sutton: pesquisadores desenvolveram o aprendizado por reforço, uma técnica vital para chatbots como o ChatGPT
Ao longo dos anos, a técnica permaneceu em grande parte restrita ao meio acadêmico. Isso mudou em 2016, quando a AlphaGo, da DeepMind (empresa do Google), derrotou o campeão mundial de Go, Lee Sedol, surpreendendo especialistas que acreditavam que esse feito levaria mais uma década. A IA utilizou aprendizado por reforço para jogar milhões de partidas contra si mesma, refinando suas estratégias.
O impacto do método se estendeu para o desenvolvimento de chatbots. O ChatGPT, da OpenAI, aprimorou suas respostas por meio do reforço a partir do feedback humano (reinforcement learning from human feedback, ou RLHF). A empresa recrutou pessoas para interagir com o modelo, corrigindo erros e ajustando respostas, permitindo que a IA aprendesse com avaliações humanas.
O aprendizado por reforço ainda enfrenta desafios, como sua aplicação fora de contextos estruturados, como jogos. Em cenários mais complexos, como robótica, especialistas buscam formas de ensinar máquinas a interagir com o mundo físico de maneira mais eficiente.
Empresas como OpenAI e DeepSeek exploram novas abordagens, incluindo aprendizado autônomo, no qual chatbots aprendem resolvendo problemas matemáticos sozinhos. O OpenAI o1 e o DeepSeek R1 são exemplos desse avanço, que busca aproximar a IA do raciocínio humano.
Barto e Sutton acreditam que o próximo passo será levar o aprendizado por reforço para agentes físicos. "Aprender a controlar um corpo por reforço é algo muito natural", afirmou Barto. A expectativa é que, no futuro, robôs aprendam a se movimentar e tomar decisões com base na experiência, como humanos e animais fazem.