Criadores do aprendizado por reforço, usado em IAs, ganham "Nobel da computação"

Pesquisadores desenvolveram técnica que permitiu avanços como AlphaGo e ChatGPT

Repórter

Publicado em 5 de março de 2025 às 10h05.

Última atualização em 5 de março de 2025 às 10h05.

Os cientistas Andrew Barto e Richard Sutton foram anunciados, nesta quarta-feira, 5, como vencedores do Prêmio Turing, considerado o "Nobel da computação". A premiação, concedida pela Association for Computing Machinery (ACM), reconheceu os pesquisadores pelo desenvolvimento do aprendizado por reforço, técnica que permitiu avanços em inteligência artificial (IA), como AlphaGo e ChatGPT. A dupla dividirá o prêmio de US$ 1 milhão.

O conceito surgiu a partir de estudos de Barto, na Universidade de Massachusetts Amherst, na década de 1970, e foi aprimorado com a chegada de Sutton, em 1978. Inspirado no comportamento de neurônios, o método propõe que máquinas aprendam por meio de tentativa e erro, associando ações bem-sucedidas a uma espécie de "recompensa" digital.

Andrew Barto e Richard Sutton: pesquisadores desenvolveram o aprendizado por reforço, uma técnica vital para chatbots como o ChatGPT

Ao longo dos anos, a técnica permaneceu em grande parte restrita ao meio acadêmico. Isso mudou em 2016, quando a AlphaGo, da DeepMind (empresa do Google), derrotou o campeão mundial de Go, Lee Sedol, surpreendendo especialistas que acreditavam que esse feito levaria mais uma década. A IA utilizou aprendizado por reforço para jogar milhões de partidas contra si mesma, refinando suas estratégias.

O impacto do método se estendeu para o desenvolvimento de chatbots. O ChatGPT, da OpenAI, aprimorou suas respostas por meio do reforço a partir do feedback humano (reinforcement learning from human feedback, ou RLHF). A empresa recrutou pessoas para interagir com o modelo, corrigindo erros e ajustando respostas, permitindo que a IA aprendesse com avaliações humanas.

O futuro do aprendizado por reforço

O aprendizado por reforço ainda enfrenta desafios, como sua aplicação fora de contextos estruturados, como jogos. Em cenários mais complexos, como robótica, especialistas buscam formas de ensinar máquinas a interagir com o mundo físico de maneira mais eficiente.

Empresas como OpenAI e DeepSeek exploram novas abordagens, incluindo aprendizado autônomo, no qual chatbots aprendem resolvendo problemas matemáticos sozinhos. O OpenAI o1 e o DeepSeek R1 são exemplos desse avanço, que busca aproximar a IA do raciocínio humano.

Barto e Sutton acreditam que o próximo passo será levar o aprendizado por reforço para agentes físicos. "Aprender a controlar um corpo por reforço é algo muito natural", afirmou Barto. A expectativa é que, no futuro, robôs aprendam a se movimentar e tomar decisões com base na experiência, como humanos e animais fazem.

1/10 (Elon Musk é o homem mais rico do mundo, segundo a Forbes, com fortuna de 210,3 bilhões de dólares)
2/10 (Bernard Arnault, da LVMH: fortuna é de 202,4 bilhões de dólares em junho de 2024)
3/10 Jeff Bezos, da Amazon. (Jeff Bezos: terceiro homem mais rico do mundo tem fortuna de 194,5 bilhões de dólares em junho de 2024)
4/10 (Mark Zuckerberg, da Meta: fortuna é de 163,8 bilhões de dólares em junho de 2024)
5/10 4- Larry Ellison (Larry Ellison)
6/10 (Larry Page, da Google, é um das 10 pessoas mais ricas do mundo em junho de 2024, com fortuna de 142,9 bilhões de dólares)
7/10 Warren Buffet, da Berkshire Hathaway, tem fortuna de 137 bilhões de dólares em junho de 2024 (7º: Mark Zuckerberg, CEO da Meta, com um valor de mercado de US$ 983.265.846)
8/10 8- Sergey Brin (Sergey Brin, da Google, tem fortuna de 136,9 bilhões de dólares em junho de 2024)
9/10 Foto de perfil do bill gates (Bill Gates, da Microsoft, tem fortuna de quase 130 bilhões de dólares em junho de 2024)
10/10 Steve Ballmer: tráfego de mensagens é forte no Brasil (Steve Ballmer, da Microsoft, tem fortuna semelhante à de Bill Gates em junho de 2024)

Acompanhe tudo sobre:Inteligência artificial

O futuro dos pagamentos: como IA e blockchain vão impactar seu dia a dia?

Mais de Inteligência Artificial

Google acelera esforços para acompanhar indústria de IA, mas traz preocupações sobre transparência

Mais na Exame

Imagem referente à matéria: Pequim promete 'proteger' direitos das empresas americanas na China

Economia

Inteligência Artificial

Criadores do aprendizado por reforço, usado em IAs, ganham "Nobel da computação"

Pesquisadores desenvolveram técnica que permitiu avanços como AlphaGo e ChatGPT

O futuro do aprendizado por reforço

Mais de Inteligência Artificial

Google acelera esforços para acompanhar indústria de IA, mas traz preocupações sobre transparência

Seu próximo romance pode ser com uma IA

Gemini consegue aumento de tráfego, mas ainda está bem atrás do concorrente ChatGPT

"Companheiro IA": os planos da Microsoft para os próximos 50 anos, segundo Mustafa Suleyman

Mais na Exame

Pequim promete 'proteger' direitos das empresas americanas na China

Mercados globais encolhem US$ 9,5 trilhões em três dias com crise tarifária de Trump

DE FRENTE COM CEO: O atendente que virou presidente do McDonald’s Brasil

Trump compara suas tarifas a 'remédio' diante de queda global de mercados