• Stability, empresa detrás del famoso generador Stable Diffusion, ha lanzado Stable Cascade, un nuevo modelo de texto a imagen basado en la arquitectura Würstchen. El modelo se publica bajo una licencia no comercial que sólo permite su uso con fines no comerciales.
  • Stable Cascade es, dice la empresa, «excepcionalmente fácil de entrenar y ajustar en hardware de consumo gracias a su enfoque en tres etapas».
  • Además de proporcionar puntos de control y scripts de inferencia, se han publicado scripts para el ajuste fino, ControlNet y el entrenamiento LoRA para que los usuarios puedan seguir experimentando con esta nueva arquitectura, que se pueden encontrar en la página GitHub de Stability.

Llego hora de decirle adiós a Stable Diffusion 1.5 y XL: ya está aquí Stable Cascade, el nuevo modelo de Stability que ambiciona con plantarle cara a MidJourney V6 con unos resultados fotorrealistas espectaculares y un flujo de trabajo más eficiente. En cascada. Puedes probar Stable Cascade descargándolo a través del navegador de aplicaciones de inteligencia artificial Pinokio (haz clic aquí para usarlo).

Así es Stable Cascade, el ¿sustituto? de SDXL

Lanzado unas horas antes en Japón (los amantes de las waifus, suponemos, se merecen toda esa devoción con la que están exprimiendo Stable Diffusion para acabar con la soledad en el mundo), Stable Cascade se ha presentado por ahora únicamente con un puñado de imágenes de alta resolución y estilo muy cinematográfico. Sin manos a la vista (uno de los principales desafíos a los que se enfrenta SDXL sigue siendo la generación de manos correcta).

Stable Cascade ejemplos

Según ha publicado hace escasas horas la web oficial de Stability, esta vez en inglés, el enfoque de Stable Cascade se centra en la eficiencia a través de su arquitectura y de un espacio latente más comprimido. A pesar de que el modelo más grande contiene 1.400 millones de parámetros más que Stable Diffusion XL, sigue presentando tiempos de inferencia más rápidos, como se ve en la siguiente figura, sacada de la web oficial de Stability:

Como probar Stable Cascade
Diferencias de velocidad de inferencia entre
Stable Cascade, SDXL, Playground v2 y SDXL Turbo.

Stable Cascade: principales funciones

Además de la generación estándar de texto a imagen, Stable Cascade puede generar variaciones de imagen y generaciones de imagen a imagen.

Las variaciones de imagen funcionan extrayendo incrustaciones de imagen de una imagen dada usando CLIP y luego devolviéndolas al modelo.

Código para Training, Finetuning, ControlNet y LoRA

Con el lanzamiento de Stable Cascade, Stability está liberando todo el código para entrenamiento, finetuning, ControlNet y LoRA (que es como se llama a las modificaciones del modelo que hacen los usuarios para, por ejemplo, poder generar una mujer de pechos gigantescos– sólo es un ejemplo para que nos entiendas, por favor-) para reducir los requisitos para experimentar más con esta arquitectura. Estas son algunas de las ControlNets que se publicaran con el modelo:

Superresolución 2x

Upscaling con Stable Cascade

Aumenta la escala de una imagen al doble de su lado (por ejemplo, convirtiendo una imagen de 1024 x 1024 en una salida de 2048×2048) y también se puede utilizar en latentes generados por la Etapa C.

Inpainting / Outpainting

Clásica función de todas las versiones de Stable Diffusion. Como de costumbre, se introduce una imagen junto con una máscara que acompaña a un texto. A continuación, el modelo rellenará la parte enmascarada de la imagen siguiendo la indicación de texto proporcionada.

Canny Edge

Descargar Stable Diffusion Cascade

Genera una nueva imagen siguiendo los bordes de una imagen existente introducida en el modelo. Se trata de una mejora de una función ya existente.

Cómo funciona Stable Cascade y en qué se diferencia de SDXL

Durante las pruebas hechas por Stability, Stable Cascade obtuvo los mejores resultados tanto en alineación de indicaciones como en calidad estética en casi todas las comparaciones de modelos. Las figuras a continuación muestran los resultados de una evaluación humana con una combinación de parti-prompts e indicaciones estéticas:

Stable Cascade probar
La imagen anterior compara Stable Cascade (30 pasos de inferencia) con Playground v2 (50 pasos de inferencia), SDXL (50 pasos de inferencia), SDXL Turbo (1 paso de inferencia) y Würstchen v2 (30 pasos de inferencia).

Stable Cascade difiere del resto de modelos Stable Diffusion en que se basa en un proceso en cascada que comprende tres modelos distintos: etapas A, B y C. Esta arquitectura permite una compresión jerárquica de las imágenes, logrando resultados notables al tiempo que utiliza un espacio latente altamente comprimido.

Como funciona Stable Cascade

  1. La fase del generador de latentes, Etapa C, transforma las entradas del usuario en latentes compactas de 24×24 que se pasan a la fase del decodificador de latentes (Etapas A y B), que se utiliza para comprimir imágenes, de forma similar a lo que es el trabajo de la VAE en la difusión estable, pero consiguiendo una compresión mucho mayor.
  2. Al desacoplar la generación de texto condicional (Etapa C) de la descodificación al espacio de píxeles de alta resolución (Etapas A y B), es posible permitir que el entrenamiento adicional o los ajustes finos, incluyendo ControlNets y LoRAs se completen singularmente en la Etapa C. Esto supone una reducción de costes de 16 veces en comparación con el entrenamiento de un modelo de Stable Diffusion de tamaño similar (como se muestra en el artículo original).
  3. Las etapas A y B pueden ajustarse opcionalmente para obtener un control adicional, pero esto sería comparable al ajuste de la VAE en un modelo de difusión estable. Para la mayoría de los usos, proporcionará un beneficio adicional mínimo y Stability sugiere simplemente entrenar la Etapa C y utilizar las Etapas A y B en su estado original.

Puedes probar Stable Cascade descargándolo a través del navegador de aplicaciones de inteligencia artificial Pinokio (haz clic aquí para usarlo).