Generar vídeos a partir de imágenes ya es una realidad (si no te importa que los clips sólo duren tres segundos). El arte generativo de Stable Diffusion (o cualquier otra imagen) ya puede animarse, según ha anunciado esta semana el desarrollador Stability AI. La empresa ha lanzado Stable Video Diffusion, un nuevo producto que, por ahora, sólo está en fase de pruebas (no admite uso comercial) y permite a los usuarios crear vídeo a partir de una sola imagen.

Así es generar vídeos a partir de imágenes con Stable Video Diffusion

La herramienta Stable Video Diffusion se ha entrenado con un conjunto de datos de millones de vídeos y luego perfeccionado con un conjunto más pequeño. Stability AI sólo afirma que utilizó vídeos de acceso público con fines de investigación. El origen del conjunto de datos no es un tema menor, dado que Stability AI fue demandada recientemente por Getty Images por sustraer sus archivos de imágenes.

Stable Video Diffusion intentará competir con empresas como Runway ML en un mercado que no ha despegado como el de las imágenes de IA. Esto se debe en gran parte a que la calidad de la tecnología aún no está a la altura, pero es probable que mejore enormemente en los próximos años.

Stable Diffusion Video se ha lanzado en dos modelos:

  • Cada uno capaz de generar de 14 a 25 fotogramas de longitud
  • Velocidades de entre 3 y 30 fotogramas por segundo
  • Resolución de 576 × 1024.

Stability afirma que estos modelos superan a las principales plataformas de conversión de texto a vídeo, Runway y Pika Labs. Stable Video Diffusion, además, es capaz de realizar síntesis multivista a partir de un solo fotograma con ajuste fino en conjuntos de datos multivista.  La empresa además ha anunciado una lista de espera para acceder a una nueva experiencia web para generar vídeos a partir de texto.

En cuanto a hardware necesario, sSe pueden crear vídeos a una resolución de 1024 x 576 con una duración de 25 fotogramas en una Nvidia GTX 1080 de 7 años con 8 gigabytes de VRAM. Los usuarios de AMD también pueden utilizar la IA de vídeo generativo con ComfyUI en una AMD 6800 XT ejecutando ROCm en Linux. Se tarda unos 3 minutos en crear un vídeo.

Cómo generar vídeos a partir de imágenes con Stable Diffusion Video

Con esta versión de investigación, Stability ha puesto a disposición el código de Stable Video Diffusion en su repositorio de GitHub. Los pesos necesarios para ejecutar el modelo localmente se pueden encontrar en su página de Hugging Face. Encontrarás más información sobre las capacidades técnicas del modelo en este documento de investigación.

(Relacionado: ¿Por qué se llama Stable Diffusion?)

Stable Video Diffusion: desventajas y aspectos por mejorar

Entre los aspectos negativos de esta (por ahora) limitada herramienta para generar vídeos a partir de texto e imágenes está que Stable Video Diffusion crea vídeos relativamente cortos (menos de 4 segundos), carece de un fotorrealismo perfecto, no puede hacer movimientos de cámara excepto panorámicas lentas, no tiene control de texto, no puede generar texto legible y no genera personas y caras correctamente.

Por el momento, Stable Video Diffusion sólo está disponible para fines de investigación, no para aplicaciones comerciales o en el mundo real. Los usuarios potenciales pueden inscribirse en una lista de espera para acceder a una «próxima experiencia web con interfaz de texto a vídeo», según Stability AI. La herramienta mostrará aplicaciones potenciales en sectores como la publicidad, la educación y el entretenimiento, entre otros.

(Relacionado: Cómo convertir texto en canción online gratis)

El vídeo es un objetivo clave para la IA generativa, por su potencial para simplificar la creación de contenidos. Sin embargo, también es quizás la herramienta con el mayor potencial de abuso a través de deepfakes, violaciones de derechos de autor y más.

Según leemos en TechCrunch, a diferencia de OpenAI con ChatGPT, Stability ha tenido menos éxito comercializando su producto Stable Diffusion a pesar de haber invertido sumas astronómicas de dinero.