Redatora
Publicado em 7 de março de 2025 às 07h05.
Última atualização em 7 de março de 2025 às 07h05.
Os chatbots de inteligência artificial enviam 96% menos tráfego de referência para sites de notícias e blogs do que a busca tradicional pelo Google, mas a extração de dados nos sites por desenvolvedores de IA tem crescido nos últimos meses, mostra um relatório da TollBit.
Empresas que ofertam buscas na internet usam IA, como Google, Perplexity, OpenIA e Meta, cujos produtos fornecem sínteses ao responder perguntas de usuários, extraíram dados de websites 2 milhões de vezes no quarto trimestre do ano passado. O relatório de TollBit analisou 160 sites, inclusive jornais online e blogs de tecnologia e de compras, e concluiu que cada site teve seus dados extraídos sete vezes em média.Um relatório da consultoria Gartner publicado em fevereiro do ano passado estima que o volume de buscas em ferramentas tradicionais irá cair 25% até 2026 em razão dos chatbots de IA. A ferramenta de pesquisa do Google oferecia como vantagem não reter o tráfego em sua plataforma, mas esse sistema está ameaçado com os resumos das IAs.
Sundar Pichai, CEO do Google: executivo apresenta Google AI Overview em evento de novidades da empresa (Getty Images)
Desenvolvedores coletam dados de sites, mas muitas vezes não identificam de forma adequada seus bots de extração, o que torna mais difícil para publicadores entenderem como companhias de IA estão acessando seu conteúdo. O Google, por exemplo, parece utilizar o mesmo bot para indexar páginas em sua plataforma e coletar dados para IA.
Publicadores de conteúdo temem que bloquear o Google de acessar seus dados prejudique o rankeamento no site de busca. No caso da Perplexity, mesmo quando a IA é bloqueada, a empresa continua a enviar tráfego de referência, o que sugere que a startup continua a extrair dados dos sites de forma secreta, diz TollBit. Em um exemplo, a Perplexity extraiu dados do site de um editor 500 vezes, mas enviou mais de 10 mil referências. Uma explicação para isso é que a Perplexity usa um rastreador da web não identificado para acessar o site.
Jornais têm processado empresas de IA pelo uso de seu conteúdo sem autorização. No Canadá, por exemplo, cinco empresas de mídia processaram a OpenAI no fim do ano passado por violar direitos autorais ao usar material sem autorização para treinar seus produtos.
O New York Times, por sua vez, enviou um aviso à Perplexity para que a startup pare de usar seu conteúdo. O jornal já havia entrado com uma ação judicial contra a Microsoft e a OpenAI por violação de direitos autorais, dizendo que as companhias construíram suas IAs com base na “cópia e uso de milhões” de seus artigos.
Uma solução para isso já empregada em alguns casos é o licenciamento de conteúdo. O Google firmou acordo em abril de 2024 com a News Corp (The Wall Street Journal, The New York Post e The Daily Telegraph), para financiar o desenvolvimento de produtos de IA. Já a OpenAI fechou acordos de licenciamento com The Atlantic e Vox Media, além de News Corp, Axel Springer (Business Insider e Politico), DotDash Meredith (People, Better Homes & Gardens, Investopedia, Food & Wine e InStyle), Financial Times e Associated Press.