Estudo de pesquisadores da Apple trouxe à tona uma crítica aos Modelos de Linguagem de Grande Escala.
Redator na Exame
Publicado em 14 de outubro de 2024 às 10h03.
Última atualização em 15 de outubro de 2024 às 10h21.
Recentemente, um estudo realizado por seis pesquisadores da Apple trouxe à tona uma crítica profunda sobre as capacidades dos Modelos de Linguagem de Grande Escala (LLMs, em inglês), como o ChatGPT, em realizar raciocínio formal. O artigo, resumido em uma série de postagens no X (antigo Twitter) pelo autor principal Mehrdad Farajtabar, desafia a suposição amplamente difundida de que esses modelos podem executar tarefas complexas com precisão. Em vez disso, o estudo aponta que a maioria dos LLMs utiliza um sofisticado “casamento de padrões” – uma abordagem que depende da identificação de padrões linguísticos em vez de compreensão real – e sugere que esta metodologia é tão frágil que até mesmo uma alteração irrelevante, como a troca de nomes, pode mudar a resposta em aproximadamente 10%.
De acordo com texto publicado por Gary Marcus, autor do livro 'Mente de Álgebra', o estudo da Apple introduziu uma nova tarefa chamada GSM-NoOp para avaliar a capacidade dos LLMs de lidar com o raciocínio formal. Os resultados foram preocupantes: mesmo em tarefas que exigiam apenas mudanças sutis, os modelos falharam em manter consistência. Esse experimento destacou que os LLMs não possuem a robustez necessária para aplicações que demandam respostas precisas e confiáveis. Para Farajtabar e sua equipe, a falta de uma verdadeira capacidade de abstração coloca em xeque a utilidade desses modelos em contextos que exigem um raciocínio mais formal e lógico.
1/ Can Large Language Models (LLMs) truly reason? Or are they just sophisticated pattern matchers? In our latest preprint, we explore this key question through a large-scale study of both open-source like Llama, Phi, Gemma, and Mistral and leading closed models, including the… pic.twitter.com/yli5q3fKIT
— Mehrdad Farajtabar (@MFarajtabar) October 10, 2024
Esse problema se torna evidente em diversas áreas, como a matemática básica. Testes mostraram que, enquanto uma calculadora pode resolver operações complexas de multiplicação com precisão consistente, os LLMs tendem a apresentar queda de desempenho conforme a complexidade das operações aumenta. Em jogos de regras bem definidas, como o xadrez, os LLMs frequentemente erram, indicando uma dificuldade em seguir sistematicamente as diretrizes estabelecidas. Tais falhas revelam que, apesar de sua habilidade para lidar com linguagem, os LLMs não conseguem extrapolar ou generalizar a partir de informações abstratas de forma confiável.
A questão da confiabilidade dos LLMs em contextos formais levanta preocupações mais amplas sobre o uso dessa tecnologia em aplicações críticas, como os robotáxis de Elon Musk. Embora esses veículos possam operar com segurança em situações comuns, sua capacidade de raciocínio abstrato é limitada, o que significa que podem enfrentar dificuldades em circunstâncias menos previsíveis. Ao contrário dos seres humanos, que possuem a habilidade de aplicar julgamentos em situações novas e incertas, os LLMs ainda não conseguem avaliar situações complexas com precisão adequada.
O estudo da Apple representa um desafio direto ao otimismo em torno dos LLMs e destaca os riscos de ignorar suas limitações estruturais. Muitos defensores desses modelos tendem a descartar erros individuais como anomalias, mas os pesquisadores argumentam que tais falhas são sistemáticas e apontam para problemas profundos na arquitetura dessas tecnologias. Erros frequentes em problemas matemáticos e de planejamento mostram que a IA ainda tem um longo caminho a percorrer antes de se tornar confiável em cenários que requerem precisão lógica e formal.
Essas falhas se tornam ainda mais alarmantes quando consideramos que as tecnologias baseadas em LLMs estão sendo integradas em aplicações críticas, onde a precisão e a confiabilidade são fundamentais. À medida que as demandas por IA avançam, a necessidade de sistemas que possam não apenas reconhecer padrões, mas também raciocinar formalmente, se torna cada vez mais urgente. Segundo o estudo, sem a capacidade de realizar operações simbólicas abstratas, os LLMs permanecerão limitados a tarefas superficiais e continuarão a falhar em contextos que exigem respostas fundamentadas e complexas.
A adoção de abordagens híbridas, como a neuro-simbólica, pode ser o próximo passo para o avanço das tecnologias de IA, possibilitando que os sistemas desenvolvam uma compreensão mais profunda e abstrata do mundo. Com isso, os desafios de raciocínio formal e extrapolação enfrentados pelos LLMs podem ser minimizados, abrindo caminho para uma IA mais confiável e adaptável a diversas situações.