Apple desarrolla IA para animar imágenes fijas

Los investigadores de Apple presentaron Keyframer, un modelo de inteligencia artificial (IA) para animar imágenes fijas sin depender de aplicaciones de edición avanzadas. El estudio fue escrito por Tiffany Tseng, Ruijia Cheng y Jeffrey Nichols y se publicó en el repositorio arXiv a principios de febrero.
Animación de imágenes fijas
La solución ataca un área poco explorada en este campo, según los investigadores: la animación. La idea es aplicar un gran modelo de lenguaje (LLM) para ayudar al trabajo de artistas, diseñadores, desarrolladores y similares que trabajan en diferentes frentes, como publicidad, juegos e interfaces de usuario.
"Basado en entrevistas con diseñadores e ingenieros de animación profesionales, Keyframer apoya la exploración y el refinamiento de las animaciones mediante una combinación de indicaciones y edición directa del resultado generado", dice el estudio. "El sistema también permite a los usuarios solicitar variantes de diseño, lo que respalda la comparación y la ideación".
A pesar del avance, la tecnología aún no tiene un destino final definido en este momento. Por otro lado, el modelo tiene el potencial de ofrecer recursos del sistema operativo para aplicaciones de edición de imágenes e ilustración desarrolladas para iPad o Mac, por ejemplo.
Además, es un camino diferente al de los software que toman fotografías o pinturas para transformarlas en videos. Keyframer, de hecho, se centra en ilustraciones, iconos y similares guardados en archivos de imagen en formato SVG.
Cómo funciona el fotograma clave
El algoritmo utiliza GPT-4, el modelo de lenguaje de OpenAI, para dar vida a los archivos SVG, que están compuestos por vectores y garantizan una gran flexibilidad para las ediciones sin perder resolución y calidad.
En el estudio, la interfaz es aún muy rudimentaria, centrándose únicamente en demostrar los “motores” de la herramienta. Sin embargo, ya da una idea de cómo funcionaría la solución en el día a día.
Primero, el usuario debe ingresar el código de la imagen SVG en Keyframer. Según los investigadores, como el formato se basa en el lenguaje XML, el modelo utiliza descripciones de código para identificar objetos.
Al enviar el código, simplemente ingrese el mensaje (comando de usuario) con el tipo de animación deseado. En el ejemplo dado, los investigadores utilizaron la ilustración de un planeta y solicitaron una animación para cambiar el color del cielo.
El procesamiento lo realiza GPT-4, que analiza la solicitud realizada en lenguaje natural y desarrolla el código CSS para animar el archivo SVG. Luego, la herramienta ofrece la opción de ajustar la animación.
Para consultar los detalles de la investigación, acceda al repositorio arXiv (arxiv.org/abs/2402.06071).
Apple se centrará en la IA
Keyframer es todavía un proyecto en desarrollo sin lanzamiento previsto. Aun así, se trata de un movimiento más de Apple para recuperar el tiempo perdido, después de que Google, Microsoft y otras empresas del sector hayan apostado casi todo su dinero a la inteligencia artificial.
A principios de febrero, el director ejecutivo, Tim Cook, afirmó que la empresa seguirá "invirtiendo en estas y otras tecnologías que darán forma al futuro", incluida la inteligencia artificial. "Estamos entusiasmados de compartir detalles de nuestro trabajo en curso en esta área a finales de este año", agregó el ejecutivo en ese momento.
Desde entonces, han salido a la luz algunos avances, como la edición de imágenes guiada por MLLM (MGIE), un modelo capaz de transformar texto en imagen y que sigue los pasos de DALL-E y MidJourney.
Se espera que las nuevas funciones se presenten en la WWDC 2024, junto con el futuro iOS 18.