Generar imágenes con IA en tiempo real es casi una realidad. Tan sólo una semana después de lanzar Stable Video Diffusion, su novedosa herramienta para generar vídeos a partir de imágenes, Stability ha presentado hoy Stable Diffusion Turbo (SDXL Turbo), un nuevo modo de conversión de texto a imagen que destaca por su asombrosa rapidez. De hecho, la herramienta se ha presentado con el eslógan «¿cómo de rápido puedes teclear?».

En el ejemplo del vídeo presentación vemos cómo las imágenes generadas por inteligencia artificial en tiempo real varían en función del contexto que se introduce en el mensaje. Tanto es así que al escribir naranja, SDXL Turbo muestra al instante una imagen de la fruta, para cambiarla por un gato naranja («orange cat») en cuanto el prompt es ampliado. Impresionante.

 

Ahora bien, queda mucho trabajo por hacer. Aunque Stability quizás se ha pasado un poco elogiando la velocidad de Stable Diffusion Turbo, ciertamente es el generador de imágenes con IA más rápido jamás lanzado.

Pero la herramienta por ahora está en fase de pruebas. Y se nota.

A la rapidez de las generaciones también ayuda el hecho de que las imágenes sean cuadradas (512 x 512) y que la variedad y riqueza de las generaciones no sea tan rica como la de otros generadores multipaso como DALL-E o MidJourney. No esperes encontrar un producto de la calidad del Stable Diffusion original pero en tiempo real. SDXL funciona bien para prompts simples, pero a poco que empecemos a pedir detalles, la IA o bien fracasa o devuelve resultados anómalos.

Relacionado: Comparativa: Stable Diffusion XL vs DALL-E 3 vs MidJourney V6 vs FireFly Image 2

Cómo usar Stable Diffusion Turbo Gratis

Puedes probar gratis SDXL Turbo en la plataforma de edición de imágenes de Stability AI Clipdropapp con una demostración beta de las capacidades de generación de texto a imagen en tiempo real.

Es importante señalar que Stable DiffusionTurbo aún no está pensado para uso comercial.

Relacionado: ¿Por qué se llama Stable Diffusion?

Cómo funciona y cómo se ha creado SDXL

SDXL Turbo implementa una nueva técnica de destilación para modelos texto-imagen: Destilación por difusión adversarial (Adversarial Diffusion Distillation (ADD), que permite al modelo sintetizar salidas de imagen en un solo paso (a diferencia de los modelos multipaso) y generar salidas de texto a imagen en tiempo real manteniendo una alta fidelidad de muestreo, según afirma Stability en su página web.

Para realizar la selección de SDXL Turbo, Stability comparó múltiples variantes de modelos diferentes (StyleGAN-T++, OpenMUSE, IF-XL, SDXL y LCM-XL) generando resultados con la misma solicitud.

Luego, se mostraron a los evaluadores dos resultados al azar y se les pidió que eligieran el resultado que más se acercaba a la dirección del mensaje. A continuación, se realizó otra prueba con el mismo método para comprobar la calidad de la imagen.

En estas pruebas ciegas, SDXL Turbo fue capaz de superar una configuración de 4 pasos de LCM-XL con un solo paso, así como superar una configuración de 50 pasos de SDXL con sólo 4 pasos.

Stability afirma que SDXL Turbo supera a los modelos multipaso de última generación con unos requisitos computacionales sustancialmente menores sin sacrificar la calidad de la imagen.

Los investigadores y aficionados interesados en los detalles técnicos pueden consultar nuestro documento de investigación aquí.