Cascada estable | Stability lanza nueva IA para crear imagen

Cascada estable |  Stability lanza nueva IA para crear imagen

Stability AI, desarrollador del popular Stable Diffusion, presentó un nuevo modelo de inteligencia artificial generativa para crear imágenes a partir de texto: Stable Cascade. Aún limitada a un uso no comercial, la tecnología se basa en la arquitectura Würstchen y llama la atención por su eficiencia a la hora de reducir gastos a la hora de generar o editar imágenes con IA.

La cascada estable es más rápida

Stability AI demostró el potencial de la solución Stable Cascade comparándola con otros modelos, incluido Stable Diffusion XL (SDXL). Lo más destacado es la velocidad de inferencia: el tiempo que le toma al algoritmo procesar la información, es decir, cuanto más corto, mejor.

Stable Cascade necesitó un total de 10 segundos para completar el procesamiento. SDXL y Playground v2 tardaron 22,8 segundos en proporcionar resultados para la misma solicitud.

El nuevo algoritmo sólo perdió frente al SDXL Turbo, que se centra en la velocidad y en un solo paso del proceso: 0,3 segundos. Por otro lado, la versión es superior a la versión más ágil de Stable Diffusion en cuanto a estética, que evalúa la calidad de la imagen generada o editada.

Además, Stable Cascade lidera en términos de alineación rápida, es decir, es más fiel a las solicitudes de los usuarios. Especialmente en relación con el Würstchen v2, que obtuvo el peor resultado al comparar los modelos.

Enfoque en tres etapas

Lo más destacado de la nueva solución de Stability se centra en el enfoque de tres etapas. Este proceso se divide en dos grupos, uno para interpretar y transformar la orden dada por el usuario (prompt, en inglés) y otro para comprimir las imágenes.

Siguiendo este enfoque, el algoritmo comienza con la etapa C, que analiza el mensaje. Este paso, que comprende el primer grupo, utiliza exclusivamente modelos estadísticos de difusión latente para procesar los datos.

El proceso continúa en el segundo grupo, que concentra dos etapas del proceso en el siguiente orden: la etapa B, también con un modelo de difusión latente, y la etapa C, con VAE para codificar y comprimir los datos con una red neuronal.

Luego de este proceso, en el que se profundiza en matices y variaciones para satisfacer las necesidades de los desarrolladores, la imagen se entrega a quien realizó la solicitud.

Sólo para uso no comercial

Stable Cascade garantiza características esenciales, como la posibilidad de ofrecer variación en los medios generados, crear imágenes a partir de otras imágenes y duplicar la resolución del archivo (upscaling). Pero todas estas funciones tienen un límite de uso ya que el algoritmo está disponible únicamente para uso no comercial.

Además, el modelo se encuentra en la fase de investigación preliminar y tiende a mejorarse con el tiempo. Mientras tanto, los desarrolladores pueden explorar Stable Cascade en el repositorio oficial de GitHub (github.com/Stability-AI/StableCascade).

Subir