Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

EMO, do Alibaba: IA produz vídeos realistas a partir de uma foto e uma faixa de áudio

Redatora

Publicado em 1 de março de 2024 às 09h27.

O novo sistema de IA do Alibaba, chamado "EMO", abreviação de Emote Portrait Alive, cria vídeos realistas com cenas de conversas e música a partir de fotos. O sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista.

O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto às nuances de uma faixa de áudio fornecida. No vídeo de apresentação da ferramenta, vemos um vídeo da atriz Audrey Hepburn cantando uma música de Ed Sheeran, e uma mulher caracterizada como a Monalisa entoando um single de Miley Cyrus -- e, mais tarde, o próprio quadro reproduzindo um discurso.

"Técnicas tradicionais frequentemente falham em capturar todo o espectro de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para resolver essas questões, propomos o EMO, um novo framework que utiliza uma abordagem de síntese direta de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais."

O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que mostrou capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.

Ao contrário de métodos anteriores que dependem de modelos de rosto 3D para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em frames de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas associadas à fala natural.

"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de última geração existentes em termos de expressividade e realismo", afirma o artigo.

No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para impersonificar pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.

Acompanhe tudo sobre:Inteligência artificial Alibaba

Elon Musk processa OpenAI e Sam Altman por relação com Microsoft

Mais de Inteligência Artificial

Novos modelos de IA da OpenAI têm mais 'alucinações' que os anteriores; entenda

Mais na Exame

Imagem referente à matéria: Irã anuncia mais negociações nucleares com Estados Unidos após reunião em Roma

Mundo

Inteligência Artificial

Monalisa falando: IA do Alibaba cria vídeos com apenas uma foto

Sistema de inteligência artificial é capaz de animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira realista

Mais de Inteligência Artificial

Novos modelos de IA da OpenAI têm mais 'alucinações' que os anteriores; entenda

Autenticidade em crise: a inteligência artificial vai roubar a nossa identidade?

Como funciona a inteligência artificial do Google que quer 'traduzir' o idioma dos golfinhos

Apple vai analisar dados nos dispositivos dos clientes para melhorar sua IA

Mais na Exame

Irã anuncia mais negociações nucleares com Estados Unidos após reunião em Roma

Além do arco-íris: cientistas descobrem cor inédita para humanos

7 características que diferenciam um funcionário excelente de um profissional mediano

Bancada Feminina ganha gabinete no Senado e fortalece atuação institucional