Sebastien Bubeck, cientista líder em IA da Microsoft: em busca do menor código de IA possível (Microsoft/Divulgação)
Repórter
Publicado em 23 de abril de 2024 às 10h23.
Última atualização em 23 de abril de 2024 às 13h02.
Você consegue usar o ChatGPT e algumas outras inteligências artificiais (IA) diretamente do seu celular. É simples: por meio de um app, as respostas são geradas e entregues via processamento em nuvem. Mas essa aparente velocidade na relação entre o usuário e a IA tem um custo gigantesco para as empresas que oferecem a ferramenta em seus serviços. E para reduzir esse pequeno atraso gerado em cada interação, o trabalho não é nada simples.
Foi pensando em reduzir alguns dos fatores desfavoráveis dessa equação que uma equipe de pesquisadores da Microsoft desenvolveu o modelo de linguagem Phi, um "ChatGPT de bolso", se levar em conta o tamanho do seu código. Nesta terça-feira, 23, ele chega em sua terceira e mais primorosa versão e promete impactar o mercado. Em uma apresentação na qual a EXAME teve acesso exclusivo, o cientista líder em IA da Microsoft, Sebastien Bubeck, explicou o que há de novo e como a mais recente adição à linha de "modelos de pequeno porte" muda o jogo da IA.
O Phi 3, que possui 3,8 bilhões de parâmetros, que são os dados que definem o comportamento e capacidade de uma IA, é uma alternativa mais enxuta comparada a modelos como o GPT-4, da OpenAI, que hoje passa da casa dos trilhões de parâmetros.
Disponível nas plataformas de nuvem Azure, Hugging Face e Ollama, o Phi-3 Mini é o primeiro de uma série que incluirá também as versões Phi-3 Small, com 7 bilhões de parâmetros, e Phi-3 Medium, com 14 bilhões. Todos de código aberto e possíveis de serem modificados e incrementados pela comunidade de desenvolvedores.
Sebastien Bubeck destacou à EXAME que, apesar do tamanho reduzido, o Phi-3 Mini é tão capaz quanto modelos maiores, como o GPT-3.5. Também, diz que houve avanços no quesito de segurança do modelo, que em suas versões anteriores demonstrou ser "enganável" para realizar tarefas enviesadas e, por vezes, tóxicas do ponto de vista ético.
"No início do projeto, nas versões anteriores, só tínhamos modelos base pré-treinados e não realizávamos nenhum tipo de alinhamento de segurança. A razão para isso é que, através da produção de dados sintéticos, conseguíamos garantir que o modelo não processasse nenhum conteúdo tóxico. No entanto, ainda existiam vieses e outros problemas. O que fizemos para o Phi 3 foi elevá-lo ao padrão da indústria, implementando aprendizado por reforço com feedback humano e ajuste supervisionado, o que resultou em um modelo quase livre de problemas", diz Bubeck.
Modelos de IA de menor porte, como o Phi-3 Mini, são geralmente mais baratos de operar e apresentam melhor desempenho em dispositivos pessoais, como telefones e notebooks. Segundo informações divulgadas pelo The Information, a Microsoft vem construindo uma equipe dedicada exclusivamente a modelos de IA mais leves, incluindo o Orca-Math, focado na resolução de problemas matemáticos.
Competidores da Microsoft também têm desenvolvido seus próprios modelos de IA de pequeno porte, que geralmente se destinam a tarefas mais simples, como resumo de documentos ou assistência em programação. Modelos como o Gemma 2B e 7B da Google são adequados para chatbots simples e trabalhos relacionados à linguagem. O Claude 3 Haiku da Anthropic pode ler e resumir rapidamente trabalhos de pesquisa densos, enquanto o Llama 3 8B da Meta é utilizado em alguns chatbots e para assistência em programação.
Bubeck explicou que o treinamento do Phi-3 foi inspirado no aprendizado infantil, utilizando "livros didático” para que a IA aprendesse e ensinasse por meio de conceitos básicos. Por princípio, ela aprende como os humanos aprendem.
Esse olhar atento para como as coisas funcionam faz parte de todo o trabalho de Bubeck na pesquisa em IA. Até chegar na posição que ocupa hoje, o cientista egresso da Universidade de Princeton tinha as dúvidas comuns de inovadores e pessoas que tentam ir além do comum, como, por exemplo, entender em qual momento a vida no planeta se originou. Também, no caso da vida, quais são os ingredientes mínimos para ela ocorrer. Em um de seus questionamentos, pensou: o que é necessário para que isso seja possível fora da natureza?
E então, olhando para a inteligência artificial, ele tenta uma resposta ainda que distante dos elementos naturais. "A pergunta que faço é: de onde vem a inteligência que observamos nos modelos de linguagem? O que realmente significa isso? Isso também se transforma em um chamado à ação, que é: quais são os ingredientes mínimos necessários para criar essa inteligência ou esse comportamento aparentemente inteligente?". Com o Phi 3, e suas próximas versões, Bubeck está cada vez mais próximo de uma resposta e isso o entusiasma.