• Google ha presentado el proyecto VideoPoet, una app basada en un robusto LLM que estarás deseando de poder usar que es capaz de procesar entradas multimodales como texto, imágenes, vídeo y audio para generar vídeos.
  • Por desgracia, aún no es posible probar Google VideoPoet. Sigue estando en fase de desarrollo y los usuarios en general no pueden utilizar directamente la herramienta.
  • En Diario IA os avisaremos en el canal de Telegram cuanto sea posible utilizar VideoPoet.

Sinceramente, en Diario IA ya hemos perdido la cuenta de todas las app de generadores de vídeo con inteligencia artificial aparecidos en el último tramo de 2023.

Todos tienen en común lo mismo: generaciones de vídeos de pocos segundos con resultados pobres que recuerdan a los primeros días de la creación de imágenes automáticas de MidJourney, DALL-E y Stable Diffusion. ¿Qué hace a VideoPoet diferente?

Relacionado: Genera vídeos a partir de imágenes con Stable Diffusion Video, de Stability

Funciones que podremos usar en VideoPoet, el generador de vídeos IA de Google

Como Probar VideoPoet
Videos a partir de imagenes generados con VideoPoet

«VideoPoet es un sencillo método de modelado que puede convertir cualquier modelo autorregresivo del lenguaje o gran modelo del lenguaje (LLM) en un generador de vídeo de alta calidad», afirma Google en su web.

En la imagen de arriba puedes ver tres ejemplos de vídeos cortos con IA generados a partir de estas simples descripciones:

  • Un barco surcando los mares agitados, tormenta eléctrica y relámpagos, óleo animado sobre lienzo
  • Volando a través de una nebulosa con muchas estrellas centelleantes
  • Un vagabundo en un acantilado con un bastón mirando la niebla marina que se arremolina debajo en un día ventoso.

Ahora bien, que todo el mundo se tranquilice. Vista la medio mentira que intentaron colarnos con el vídeo fake de Gemini, la cautela nos invita a esperar a poder usar VideoPoet antes de celebrar la herramienta. Dicho esto, la IA pinta bien. A continuación te describimos sus prometedoras funciones.

Probar la IA Video Poet
Una visión general del modelo VideoPoet, que es capaz de realizar múltiples tareas en una variedad de entradas y salidas centradas en el vídeo. Opcionalmente, el LLM puede tomar texto como entrada para guiar la generación de tareas de conversión de texto en vídeo, de imagen en vídeo, de estilización y de outpainting.

En comparación con los modelos de vídeo predominantes que utilizan modelos de difusión que añaden ruido a los datos de entrenamiento y acaban recreándolos, VideoPoet combina múltiples capacidades de generación de vídeo en un modelo lingüístico unificado. Mientras que otros modelos tienen componentes entrenados por separado para diferentes tareas, VideoPoet lo tiene todo integrado en un único LLM, y ofrece las siguientes posibilidades.

Generación de imagen a vídeo y de texto a vídeo

Diferentes estilos a un vídeo generado con la IA VideoPoet y el prompt "Un astronauta montando a caballo en un frondoso bosque".
Diferentes estilos a un vídeo generado con la IA VideoPoet y el prompt «Un astronauta montando a caballo en un frondoso bosque».

VideoPoet puede tomar cualquier imagen de entrada y generar un vídeo que coincida con un texto determinado. Una vez creado el vídeo, se le puede aplicar distintos estilos y efectos visuales, como si fueran filtros de Instagram o Photoshop. Los estilos y efectos pueden componerse fácilmente en la generación de texto a vídeo.

Relacionado: ¿Por qué casi no se habla de estas tres locuras que ha presentado Alibaba?

Vídeos con IA más largos

Por defecto, VideoPoet genera vídeos de 2 segundos. Pero el modelo también es capaz de generar vídeos de larga duración prediciendo 1 segundo de vídeo de salida dada una entrada de un clip de vídeo de 1 segundo. Este proceso puede repetirse indefinidamente para producir un vídeo de cualquier duración.

A pesar de la brevedad del contexto de entrada, desde Google afirman que el modelo muestra una fuerte preservación de la identidad de los objetos que no se había visto en trabajos anteriores, como se demuestra en los clips de mayor duración que podemos ver en su web.

Edición interactiva y controlable de vídeos

También es posible la edición interactiva, ampliando los vídeos de entrada una corta duración y seleccionando de una lista de ejemplos. Seleccionando el mejor vídeo de una lista de candidatos, podemos controlar con precisión los tipos de movimiento deseados a partir de un vídeo generado más grande.

El modelo VideoPoet puede editar un sujeto para que siga diferentes movimientos, como estilos de baile. Tienes varios ejemplos en su página dedicada a la edición de vídeos con inteligencia artificial.

Relacionado: Pika Labs: El anime de calidad hecho con IA ya es una realidad

Por último, VideoPoet ofrece movimientos de cámara controlables desde cero, lo que permite a los usuarios especificar el tipo de toma de la cámara en el mensaje de texto. Esta función es una propiedad emergente del preentrenamiento de VideoPoet y demuestra la capacidad del modelo para generar movimientos de cámara personalizados de alta calidad.

Mona Lisa bostezando por videopoet

VideoPoet ha desplegado una «arquitectura sólo decodificadora» que le permite producir contenidos para tareas en las que no ha sido específicamente entrenado. Según se informa, el entrenamiento de VideoPoet implica dos pasos similares a los de los LLM: el preentrenamiento y la adaptación a tareas específicas.

Según los investigadores, el LLM preentrenado es esencialmente el marco de base que puede personalizarse para diversas tareas de generación de vídeo. Permaneceremos atentos para saber cuándo podremos probar y usar VideoPoet, una herramienta IA de Google que, sin duda, tendrá un sinfín de aplicaciones en el portal de vídeos Youtube.

Cómo usar Google Videopoet

Por ahora, sólo podemos ver las toneladas de ejemplos de vídeos generados con la IA VideoPoet en este post de Google. Desgraciadamente, VideoPoet aún no dispone de una plataforma de acceso público.

Para una comprensión más profunda del funcionamiento interno de VideoPoet, los entusiastas pueden profundizar en el documento de investigación: Documento de investigación de VideoPoet. El documento proporciona información sobre aspectos técnicos, limitaciones y posibles desarrollos.

Investigación en curso

Naturaleza dinámica de la accesibilidad: Es crucial reconocer que VideoPoet está aún en fase de investigación, y que su accesibilidad y características evolucionarán.

Mantente informado: Explorando los recursos disponibles y manteniéndose al día de los anuncios de Google, los usuarios pueden mantenerse informados sobre esta apasionante tecnología de IA y su posible impacto en la creación de vídeo. En Diario IA os avisaremos en el canal de Telegram cuanto sea posible probar y usar VideoPoet.

Mientras esperamos con impaciencia el lanzamiento público de Google VideoPoet, estas vías de exploración alternativas ofrecen un anticipo de sus capacidades. Mantente atento a la evolución del panorama y sé testigo del futuro de la generación de vídeo basada en IA.