Filme O Homem Bicentenário: diferentemente do previsto pela ficção, não temos humanoides em casa, mas assistentes como Siri e Alexa (O Homem Bicentenário/Reprodução)
Da Redação
Publicado em 9 de dezembro de 2019 às 13h25.
Última atualização em 9 de dezembro de 2019 às 13h53.
San Francisco – No fim do ano passado, o Google revelou uma inovação na tecnologia de inteligência artificial chamada BERT que mudou a forma como os cientistas constroem sistemas que aprendem como as pessoas escrevem e falam.
Mas o BERT, que agora está sendo implantado em serviços como o mecanismo de busca do Google, tem um problema: ele poderia estar absorvendo preconceitos do mesmo modo que uma criança imita o mau comportamento de seus pais.
O BERT é um de uma série de sistemas de IA que aprendem com muitas e muitas informações digitalizadas, tão variadas quanto livros antigos, verbetes da Wikipédia e artigos de notícias. Décadas e até séculos de preconceitos – juntamente com alguns novos – provavelmente acabam indo parar no meio desse material.
O BERT e seus pares são mais propensos a associar homens à programação de computadores, por exemplo, e geralmente não dão às mulheres crédito suficiente. Um programa decidiu que quase tudo escrito sobre o presidente Donald Trump era negativo, mesmo que o conteúdo real fosse lisonjeiro.
À medida que novos e mais complexos sistemas de IA chegam a uma gama cada vez maior de produtos, como serviços de anúncios on-line e software de negócios ou assistentes digitais, como a Siri da Apple e a Alexa da Amazon, as empresas de tecnologia serão pressionadas a se proteger dos preconceitos inesperados que vão sendo descobertos.
Mas os cientistas ainda estão aprendendo como funciona a tecnologia como o BERT, chamada de “modelos de linguagem universal”. E eles muitas vezes se surpreendem com os erros que sua nova IA está cometendo.
Em uma tarde recente em San Francisco, ao pesquisar um livro sobre inteligência artificial, o cientista da copmputação Robert Munro inseriu 100 palavras em inglês no BERT: “joia”, “bebê”, “cavalos”, “casa”, “dinheiro”, “ação”. Em 99 casos de 100, era mais provável que o BERT associasse as palavras com homens em vez de mulheres. A palavra “mãe” era a exceção.
“Essa é a mesma desigualdade histórica que sempre vimos”, disse Munro, que tem doutorado em linguística computacional e anteriormente supervisionou a linguagem natural e a tecnologia de tradução do Amazon Web Services. “Agora, com algo como o BERT, esse preconceito pode continuar se perpetuando.”
Em uma recente postagem no blog, Munro também descreve como examinou os serviços de computação em nuvem do Google e da Amazon Web Services, que ajudam outras empresas a adicionar habilidades linguísticas a novos aplicativos. Ambos os serviços não reconheceram a palavra “dela” como um pronome, embora tenham identificado corretamente “dele”.
“Estamos cientes do problema e estamos tomando as medidas necessárias para resolvê-lo”, disse um porta-voz do Google. “Atenuar o viés de nossos sistemas é um dos nossos princípios de IA, e uma prioridade.” A Amazon não respondeu a vários pedidos de comentário.
Os pesquisadores há muito tempo alertam para o preconceito na IA que aprende com grandes quantidades de dados, incluindo os sistemas de reconhecimento facial que são usados por departamentos de polícia e outras agências governamentais, bem como com serviços populares na internet de gigantes da tecnologia, como Google e Facebook. Em 2015, por exemplo, o aplicativo Google Photos foi pego rotulando afro-americanos como “gorilas”. Os serviços que Munro examinou também mostraram preconceito contra mulheres e pessoas de cor.
O BERT e sistemas similares são muito mais complexos – complexos demais para qualquer um prever o que acabarão fazendo.
“Mesmo as pessoas que constroem esses sistemas não entendem como eles estão se comportando”, disse Emily Bender, professora da Universidade de Washington, especializada em linguística computacional.
O BERT é um dos muitos modelos de linguagem universal utilizados na indústria e na academia. Outros são o ELMO, o ERNIE e o GPT-2. Como uma espécie de piada interna entre os pesquisadores de IA, eles muitas vezes recebem nomes de personagens da Vila Sésamo. (BERT é a abreviação de Bidirectional Encoder Representations from Transformers, ou Representações de Codificação Bidirecional de Transformadores.)
Eles aprendem as nuances da linguagem analisando enormes quantidades de texto. Um sistema construído pela OpenAI, um laboratório de inteligência artificial em San Francisco, analisou milhares de livros autopublicados, incluindo romances, mistérios e ficção científica. O BERT analisou a mesma biblioteca de livros, juntamente com milhares de artigos da Wikipédia.
Ao analisar todos esses textos, cada sistema aprendeu uma tarefa específica. O sistema da OpenAI aprendeu a prever a próxima palavra em uma frase. BERT aprendeu a identificar a palavra que falta (como “Eu quero ____ este carro, porque ele é barato”).
Mediante a aprendizagem dessas tarefas, o BERT começa a entender de forma geral como as pessoas unem as palavras. Em seguida, ele pode aprender outras tarefas analisando mais dados. Como resultado, isso permite que os aplicativos de IA se aperfeiçoem a uma taxa antes vista como impossível.
“O BERT mudou tudo completamente “, disse John Bohannon, diretor de ciência da Primer, uma startup em San Francisco especializada em tecnologias de linguagem natural. “Você pode ensinar todos os truques a um cavalo só.”
O próprio Google usou o BERT para melhorar seu mecanismo de busca. Antes, se você digitasse “Será que os esteticistas aguentam muita coisa no trabalho?” no motor de busca do Google, ele não entendia muito bem o que você estava perguntando. Palavras como “aguentar” e “trabalho” podem ter múltiplos significados. Mas agora, graças ao BERT, o Google responde corretamente à mesma pergunta com um link descrevendo as demandas físicas da vida na indústria de cuidados da pele.
Mas ferramentas como o BERT captam preconceitos, de acordo com um estudo recente de uma equipe de cientistas da computação da Universidade Carnegie Mellon. O artigo mostrou, por exemplo, que o BERT terá mais probabilidade de associar a palavra “programador” com os homens do que com as mulheres. O preconceito de linguagem pode ser um problema particularmente difícil nos sistemas de conversação.
À medida que essas novas tecnologias proliferam, eles podem aparecer em quase qualquer lugar. Na Primer, Bohannon e seus engenheiros usaram o BERT recentemente para construir um sistema que permite que as empresas julguem automaticamente o sentimento transmitido por manchetes, tuítes e outros dados da mídia on-line. As empresas usam essas ferramentas para informar o mercado de ações e outros.
Mas, depois de treinar sua ferramenta, Bohannon notou um viés consistente. Se um tuíte ou manchete continha a palavra “Trump”, a ferramenta quase sempre julgava que o conteúdo era negativo, por mais positivo que fosse o sentimento.
“Isso é difícil. Você precisa de muito tempo e cuidado. Encontramos um viés óbvio. Mas quantos outros existem aí?”, ele disse.
Bohannon disse que os cientistas da computação devem desenvolver as habilidades de um biólogo. Assim como um biólogo se esforça para entender o funcionamento de uma célula, os engenheiros de software devem encontrar maneiras de entender sistemas como o BERT.
Ao revelar a nova versão de seu mecanismo de busca no mês passado, os executivos do Google reconheceram esse fenômeno. E disseram que testaram seus sistemas extensivamente visando remover qualquer preconceito.
Os pesquisadores estão apenas começando a entender os efeitos do viés em sistemas como o BERT. Mas, como Munro mostrou, as empresas são lentas para notar mesmo um preconceito óbvio em seus sistemas. Depois que Munro apontou o problema, a Amazon o corrigiu. O Google disse que estava trabalhando para resolver a questão.
O executivo-chefe da Primer, Sean Gourley, disse que examinar o comportamento dessa nova tecnologia vai se tornar algo muito importante, e vai gerar toda uma nova indústria, em que as empresas pagam especialistas para auditar seus algoritmos em busca de todos os tipos de preconceitos e outros comportamentos inesperados.
“E provavelmente será uma indústria de bilhões de dólares”, disse ele.