IA generativa recorre a livros para crescer

Parcerias geram polêmica entre autores, enquanto mercado busca regular uso de dados protegidos por direitos autorais

Homem passa por um pôster sobre inteligência artificial (IA) na feira do livro de Frankfurt, na Alemanha, em 16 de outubro de 2024 (AFP)

AFP

Agência de notícias

Publicado em 23 de novembro de 2024 às 11h13.

Para expandir o negócio dos direitos autorais, o mundo editorial começa a assinar contratos com empresas de tecnologia para permitir que os seus livros alimentem as necessidades crescentes da inteligência artificial generativa.

A grande editora americana HarperCollins acaba de propor a alguns dos seus autores um contrato com uma sociedade de inteligência artificial para que esta possa usar os seus livros para treinar o seu modelo de IA generativa.

Em um e-mail consultado pela AFP, a empresa tecnológica, cuja identidade é confidencial, propõe 2.500 dólares (14.530 reais) por cada livro selecionado para treinar o seu modelo de linguagem durante um período de três anos.

Para produzir todos os tipos de conteúdo, esta tecnologia precisa ser alimentada continuamente com uma grande quantidade de dados.

Contactada pela AFP, a editora confirmou a operação.

"A HarperCollins fechou um acordo com uma empresa de tecnologia de inteligência artificial para autorizar o uso limitado de determinados títulos (…) para treinar modelos de IA, a fim de melhorar sua qualidade e desempenho", escreveu.

A editora especificou que o acordo "limita claramente a produção de modelos que respeitem os direitos autorais".

A oferta gerou opiniões divergentes no setor e escritores como o americano Daniel Kibblesmith rejeitaram-na categoricamente.

"Provavelmente faria isso por um bilhão de dólares. Faria isso por uma quantia de dinheiro que não me obrigaria a trabalhar mais, porque esse é o objetivo final desta tecnologia", publicou na rede social Bluesky.

Novos materiais

A HarperCollins é um dos maiores atores do setor a dar esse passo, mas não o primeiro.

A editora americana de livros científicos Wiley deu acesso "ao conteúdo de livros acadêmicos e profissionais publicados para uso específico na formação desses modelos por 23 milhões de dólares (133 milhões de reais) a uma grande empresa de tecnologia", disse a companhia em março durante a apresentação de seus resultados financeiros.

Este tipo de colaboração evidencia os problemas ligados ao desenvolvimento da inteligência artificial generativa, treinada com enormes quantidades de dados recolhidos na Internet, o que pode resultar em possíveis violações de direitos autorais.

Para Giada Pistilli, chefe de ética da Hugging Face, plataforma franco-americana de IA de acesso livre, o anúncio é um avanço, porque o conteúdo dos livros passa a ser monetizado. Mas lamenta a margem de negociação limitada para os autores.

"O que veremos é um mecanismo de acordos bilaterais entre empresas de novas tecnologias e editoras ou proprietários de direitos autorais, quando na minha opinião seria necessário um diálogo mais amplo para incluir todas as partes envolvidas", afirma.

"Viemos de muito longe", comenta Julien Chouraqui, diretor jurídico do sindicato editorial francês SNE. "É um progresso: o fato de haver um acordo significa que houve um diálogo e uma vontade de alcançar um equilíbrio no uso de dados de origem que estão protegidos por direitos autorais e que vão gerar valor", afirma.

Os editores de imprensa também estão se organizando para enfrentar esse problema. No final de 2023, o jornal americano The New York Times processou a OpenAI, criadora do programa ChatGPT, e a Microsoft, sua principal investidora, por violação de direitos autorais.

Outros veículos de comunicação optaram por fechar acordos com esta empresa pioneira em IA.

As empresas de tecnologia podem não ter outra opção senão investir a fundo para melhorar os seus produtos, já que suas bases de dados e materiais para treinar os seus modelos estão esgotando.

A imprensa americana publicou recentemente que os novos modelos em desenvolvimento dão sinais de ter atingido o seu limite, especialmente no Google, Anthropic e OpenAI.

"Na Internet, você coleta material lícito e ilícito e muito conteúdo pirateado. Isso implica um problema jurídico. Sem esquecer o problema da qualidade dos dados", afirma Julien Chouraqui, do SNE.

"Para que o desenvolvimento de um mercado seja alcançado sobre uma base virtuosa, todos os atores devem estar envolvidos", destaca.

Acompanhe tudo sobre:Inteligência artificial

Inteligência artificial e segurança cibernética na nova fase das relações EUA-China e Brasil

Mais de Inteligência Artificial

Gigante tecnológico chinês Tencent testa modelo próprio de IA, associado ao DeepSeek

Mais na Exame

Imagem referente à matéria: Gigante tecnológico chinês Tencent testa modelo próprio de IA, associado ao DeepSeek

Inteligência Artificial

Inteligência Artificial

IA generativa recorre a livros para crescer

Parcerias geram polêmica entre autores, enquanto mercado busca regular uso de dados protegidos por direitos autorais

Novos materiais

Mais de Inteligência Artificial

Gigante tecnológico chinês Tencent testa modelo próprio de IA, associado ao DeepSeek

Uma semana após aceno de J.D Vance, ganhos da Intel na bolsa retrocedem

Laudo sobre morte de ex-funcionário da OpenAI, que criticou a empresa, é concluído

'Não sei como contaremos a nosso filho', diz casal com startup que usa IA para criar conteúdo adulto

Mais na Exame

Gigante tecnológico chinês Tencent testa modelo próprio de IA, associado ao DeepSeek

Reino Unido e Europa enfrentam "desafio geracional" de segurança nacional, diz Starmer

Dívidas de estados e municípios pagas pela União somam R$ 556 milhões

Brasil e Espanha elevam relações bilaterais e realizarão cúpulas com presidentes