O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

André Lopes

Repórter

Publicado em 17 de outubro de 2023 às 15h32.

Última atualização em 20 de outubro de 2023 às 17h21.

Em um recente artigo científico promovido pela Microsoft, obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Acompanhe tudo sobre:Inteligência artificial ChatGPT

Gigante chinês Baidu afirma que seu robô conversacional é tão bom quanto ChatGPT

Mais de Inteligência Artificial

Prompt perfeito: presidente da OpenAI ensina como extrair o máximo do ChatGPT

Mais na Exame

Imagem referente à matéria: Taylor Swift é eleita Artista Global do Ano pela IFPI pelo 3º ano consecutivo; veja o ranking

Pop

Inteligência Artificial

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

Mais de Inteligência Artificial

Prompt perfeito: presidente da OpenAI ensina como extrair o máximo do ChatGPT

Startup de Ilya Sutskever, ex-OpenAI, levanta US$ 1 bihão para criar IA segura

Meta investe bilhões em megacabo submarino para acelerar IA global

Elon Musk apresenta novo modelo de IA que promete superar OpenAI e DeepSeek

Mais na Exame

Taylor Swift é eleita Artista Global do Ano pela IFPI pelo 3º ano consecutivo; veja o ranking

É retomada a COP16, da biodiversidade, agora em Roma

Brasil lança primeira oferta de títulos no exterior em 2025

NikeSkims: a nova marca da Nike em parceria com Kim Kardashian