IA transforma voz em vídeo apenas usando fotos

Pesquisadores do Instituto para Computação Inteligente, vinculado ao Alibaba Group, revelaram um avanço significativo na inteligência artificial (IA) com o lançamento do sistema Emote Portrait Alive (EMO). Esta inovação permite transformar fotografias estáticas de rostos em vídeos animados, simulando a fala ou o canto da pessoa retratada.

Uma das demonstrações mais impressionantes da tecnologia envolveu animar a Mona Lisa, a icônica obra de Leonardo da Vinci, como se ela estivesse falando. Veja abaixo alguns exemplos dos vídeos já criados.

IA transforma voz em vídeo apenas usando fotos | Imagem via reprodução

Inovação em animação facial por IA

Diferente de abordagens anteriores, que já haviam explorado a animação semi-automática de imagens, o EMO representa um passo adiante ao incorporar elementos sonoros às animações sem a necessidade de modelos tridimensionais ou referências faciais específicas.

Em vez disso, a equipe utilizou uma técnica de modelagem de difusão, treinando a IA com uma vasta quantidade de dados de áudio e vídeo, aproximadamente 250 horas, para desenvolver o sistema.

Conforme publicado no TechXplore, a tecnologia consegue converter as ondas sonoras em sequências de vídeo, capturando com precisão gestos e nuances faciais humanas. Esse processo resulta em animações que reproduzem fielmente os movimentos labiais e expressões faciais associadas à fala ou ao canto, conferindo um alto grau de realismo e expressividade aos vídeos gerados.

A equipe disponibilizou exemplos no GitHub, destacando a superioridade do EMO em relação a outras ferramentas quanto à naturalidade e expressividade das animações. Nota-se que a duração do vídeo animado é determinada pela extensão do arquivo de áudio usado, permitindo a comparação lado a lado da imagem original e sua versão animada, falando ou cantando com a voz originalmente gravada.

Entretanto, os desenvolvedores enfatizam a necessidade de regulação ou monitoramento do uso do EMO para prevenir aplicações antiéticas. Os detalhes técnicos e resultados alcançados com essa ferramenta foram documentados e publicados no servidor de pré-publicações arXiv, indicando o potencial transformador dessa tecnologia na criação de conteúdo digital animado.

Você pode gostar de: R$ 68 ou R$ 273? Nubank pode pagar valores aos clientes com CPF nessa lista

Quais os riscos desta nova ferramenta?

A nova ferramenta Emote Portrait Alive (EMO), que anima fotografias estáticas com áudio para criar vídeos realistas, apresenta vários riscos potenciais. Primeiramente, existe a preocupação com a possibilidade de uso antiético, como na criação de conteúdo falso ou deepfakes, que podem ser utilizados para difamação, manipulação de informações ou fraudes.

A capacidade de fazer com que imagens de pessoas falem ou cantem de maneira convincente pode ser explorada para enganar o público ou criar falsas narrativas. Além disso, a privacidade das pessoas retratadas nas fotografias pode ser comprometida, especialmente se as imagens forem usadas sem consentimento para fins questionáveis.

Outro risco é a desinformação, com a produção de vídeos que pareçam autênticos, mas que veiculem informações falsas ou distorcidas, potencialmente influenciando opiniões e decisões. Portanto, o monitoramento rigoroso e a criação de diretrizes éticas são essenciais para mitigar esses riscos e garantir o uso responsável da tecnologia.

Você pode gostar: IA começa a ajudar cientistas a encontrarem vida fora da Terra; veja como