La IA de Google convierte fotos en vídeos de personas hablando
¿Habías pensado alguna vez en un sistema de inteligencia artificial capaz de transformar una foto y una muestra de voz en un vídeo de alguien hablando? Esta es la propuesta de un grupo de investigadores de Google, que desarrollaron el modelo VLOGGER para facilitar el desarrollo y edición de contenidos de voz y otro tipo de contenidos con un presentador destacado.
Según los investigadores, esta tecnología puede resultar útil tanto para editar vídeos ya grabados como para traducir discursos a otros idiomas sin necesidad de volver a grabarlos. Por otro lado, un uso incorrecto de la herramienta puede conllevar riesgos, como la difusión de información errónea y estafas financieras con deepfakes.
La nueva IA de Google apuesta por los vídeos
VLOGGER fue desarrollado por los científicos Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck y Cristian Sminschisescu, investigadores de Google Research (una división de investigación de la empresa). En la presentación, el grupo explica que el modelo es un “método para generar vídeo humano parlante” basado “en el éxito de los recientes modelos de difusión generativa”.
Para lograr esto, el sistema utiliza un enfoque de dos etapas para modelar los videos, comenzando con la inserción de la muestra de voz e imagen. Luego, el modelo procesa los archivos para luego entregar el contenido de una persona que habla normalmente.
La mayor diferencia de la tecnología es precisamente ofrecer estos resultados sin requerir entrenamiento individual para cada persona, es decir, no depende de muestras fotográficas del personaje para generar los videos. El sistema también ajusta la disposición de otras partes del cuerpo durante el habla, sin limitarse a la cara, para hacerlo más natural y empático.
Y todo ello se nota en las manifestaciones presentadas por el grupo, que creó ejemplos con diferentes etnias para dar testimonio de la diversidad del modelo. En los vídeos todavía se ve que hay manipulación, pero el espectador más distraído puede no darse cuenta de que se trata de una edición de IA, por ejemplo.
La otra cara de la moneda
Pese al gran avance, Stan Lee ya nos advirtió en una de sus mayores obras, Spider-Man: “un gran poder conlleva una gran responsabilidad”. Sobre todo si se tienen en cuenta los riesgos que suponen las estafas provocadas por los deepfakes, que ya han provocado pérdidas millonarias a una empresa por una videollamada falsa, por ejemplo.
Por ahora, la tecnología no está disponible públicamente y es posible que nunca se lance a todos de manera ilimitada, sin la intermediación de Google. Por otro lado, el debut del modelo es un indicador más de que las herramientas para editar vídeos con IA están mejorando cada vez más, sobre todo tras el debut de Sora, de OpenAI.