Pesquisadores do Instituto para Computação Inteligente, vinculado ao Alibaba Group, revelaram um avanço significativo na inteligência artificial (IA) com o lançamento do sistema Emote Portrait Alive (EMO). Esta inovação permite transformar fotografias estáticas de rostos em vídeos animados, simulando a fala ou o canto da pessoa retratada.
Uma das demonstrações mais impressionantes da tecnologia envolveu animar a Mona Lisa, a icônica obra de Leonardo da Vinci, como se ela estivesse falando. Veja abaixo alguns exemplos dos vídeos já criados.
Inovação em animação facial por IA
Diferente de abordagens anteriores, que já haviam explorado a animação semi-automática de imagens, o EMO representa um passo adiante ao incorporar elementos sonoros às animações sem a necessidade de modelos tridimensionais ou referências faciais específicas.
Em vez disso, a equipe utilizou uma técnica de modelagem de difusão, treinando a IA com uma vasta quantidade de dados de áudio e vídeo, aproximadamente 250 horas, para desenvolver o sistema.
Conforme publicado no TechXplore, a tecnologia consegue converter as ondas sonoras em sequências de vídeo, capturando com precisão gestos e nuances faciais humanas. Esse processo resulta em animações que reproduzem fielmente os movimentos labiais e expressões faciais associadas à fala ou ao canto, conferindo um alto grau de realismo e expressividade aos vídeos gerados.
A equipe disponibilizou exemplos no GitHub, destacando a superioridade do EMO em relação a outras ferramentas quanto à naturalidade e expressividade das animações. Nota-se que a duração do vídeo animado é determinada pela extensão do arquivo de áudio usado, permitindo a comparação lado a lado da imagem original e sua versão animada, falando ou cantando com a voz originalmente gravada.
Entretanto, os desenvolvedores enfatizam a necessidade de regulação ou monitoramento do uso do EMO para prevenir aplicações antiéticas. Os detalhes técnicos e resultados alcançados com essa ferramenta foram documentados e publicados no servidor de pré-publicações arXiv, indicando o potencial transformador dessa tecnologia na criação de conteúdo digital animado.
Você pode gostar de: R$ 68 ou R$ 273? Nubank pode pagar valores aos clientes com CPF nessa lista
Quais os riscos desta nova ferramenta?
A nova ferramenta Emote Portrait Alive (EMO), que anima fotografias estáticas com áudio para criar vídeos realistas, apresenta vários riscos potenciais. Primeiramente, existe a preocupação com a possibilidade de uso antiético, como na criação de conteúdo falso ou deepfakes, que podem ser utilizados para difamação, manipulação de informações ou fraudes.
A capacidade de fazer com que imagens de pessoas falem ou cantem de maneira convincente pode ser explorada para enganar o público ou criar falsas narrativas. Além disso, a privacidade das pessoas retratadas nas fotografias pode ser comprometida, especialmente se as imagens forem usadas sem consentimento para fins questionáveis.
Outro risco é a desinformação, com a produção de vídeos que pareçam autênticos, mas que veiculem informações falsas ou distorcidas, potencialmente influenciando opiniões e decisões. Portanto, o monitoramento rigoroso e a criação de diretrizes éticas são essenciais para mitigar esses riscos e garantir o uso responsável da tecnologia.
Você pode gostar: IA começa a ajudar cientistas a encontrarem vida fora da Terra; veja como