La presentación esta semana del proyecto Fast Fill de Adobe y los avances en 3D Gaussian Splatting amenazan con sacudir el formato vídeo de raíz para transformarlo por completo en algo nuevo y desconocido que jamás podríamos haber concebido. No estamos exagerando.

Por un lado, la novedosa técnica de Gaussian Splatting nos permitirá renderizar cualquier vídeo en tres dimensiones para poder sumergirnos en él y manipularlo. Con Fast Fill, los usuarios podrán llevar a cabo complejas tareas de edición, como eliminar o añadir objetos y cambiar fondos, con una simple indicación de texto. Si no has entendido nada, tranquilo, que a continuación en Diario IA te explicamos en detalle y con muchos ejemplos qué es y cómo funciona el Gaussian Splatting y Fast Fill.

(Relacionado: El nuevo surrealismo era esto: cómo el vídeo generado por IA está cambiando el cine)

Qué es el 3D Gaussian Splatting: ¿te imaginas estar dentro de una escena de Tarantino?

El nombre no es muy sexy, pero los resultados, créenos, son de los que dejan sin palabras. Y porque a veces precisamente lo que sobra son eso, las palabras, te invitamos a que descubras por ti mismo que es el Gaussian Splatting antes de que procedamos a explicarlo:

El 3D Gaussian Splatting es un método para renderizar una escena 3D en tiempo real a partir de unas pocas imágenes tomadas desde múltiples puntos de vista. Dicho con otras palabras, esta novedosa técnica nos permite sintetizar una escena 3D a partir de imágenes 2D, en alta calidad y en tiempo real.

El espacio 3D se define como un conjunto de gaussianas y los parámetros de cada gaussiana se calculan mediante inteligencia artificial. La IA no es necesaria en el momento del renderizado, por lo que es posible un renderizado rápido.

(Relacionado: La IA podría ser la llave del invento que reemplazará al smartphone)

Más ejemplos de cómo funciona el Gaussian Splatting

En el vídeo que te mostramos a continuación puedes ver cómo los chicos del canal de Bad Decisions Studio recrearon con el motor Unreal Engine escenas de El Resplandor, Malditos Bastardos, Harry Potter, Matrix, El Caballero Oscuro y Prince of Persia.

El Gaussian Splatting puede ser revolucionario para los creadores de vídeo. Piénsalo: un director de cine ahora podrá re imaginar una escena desde la sala de montaje después de haberla rodado, pudiendo añadir nuevos planos sin que sea necesario tener que volver a rodar.

(Relacionado: ¿Lo de las novias virtuales con IA se nos está yendo de las manos?)

La técnica fue presentada en agosto durante la Conferencia y Exposición Internacional sobre Infografía y Técnicas Interactivas (SIGGRAPH 2023). Aquí puedes consultar el paper con los fundamentos técnicos que explican cómo funciona el Gaussian Splatting.

¿Por qué se llama Gaussian Splatting?

El nombre de Gaussian Splatting hace referencia a la distribución gaussiana, la típica distribución estadística en forma de campana que conocemos comúnmente como distribución normal.

Los Gaussian Splats son, básicamente, «un montón de manchas en el espacio». En lugar de representar una escena 3D como mallas poligonales, o vóxeles, o campos de distancia, la representa como (millones de) partículas.

Que es el gaussian splatting y como funciona

En la primera imagen vemos una distribución normal de una única variable en una única dimensión. Y si añadimos otra distribución normal en una segunda dimensión, obtendríamos una Gaussiana bidimensional que podríamos visualizar desde arriba por la combinación de ambas distribuciones.

Un vídeo editado con Gaussian Splatting estará formado por millones de campanas gaussianas. Si quieres ampliar conocimientos te recomendamos este artículo (en inglés) en HugginFace. A continuación te mostramos más ejemplos del estudio original presentados en la exposición:

4D Gaussian Splatting: recreando escenas en movimiento

Este mes, un grupo de investigadores de Huawei y la Universidad Huazhong de Ciencia y Tecnología de China presentaron un desarrollo para usar la tecnología de Gaussian Splatting para capturar también movimientos dinámicos en 3D, incluidos los del cuerpo humano. Dicho en otras palabras, Gaussian Splatting en movimiento para reproducir escenas dinámicas.

Su método se denomina «4D Gaussian splatting», porque el tiempo, al ser la cuarta dimensión, es la nueva característica, lo que permite que la imagen cambie con el tiempo.

Según explican los investigadores en su artículo publicado el 12 de octubre simultáneamente en Github y en arXiv.org, «3D-GS [Gaussian splatting] sigue centrándose en las escenas estáticas. Extenderlo a escenas dinámicas como representación 4D es un tema importante pero difícil. El principal reto consiste en modelar movimientos puntuales complicados a partir de una entrada dispersa».

Y sin embargo, los investigadores se han salido con la suya. Aquí tienes un ejemplo de Gaussian Splating estático vs dinámico:

El principal reto es que cuando se unen múltiples salpicaduras gaussianas a lo largo de diferentes marcas de tiempo para crear una imagen en movimiento, cada punto se «deforma» de imagen a imagen, creando representaciones inexactas de las formas y volúmenes de los objetos (y sujetos) en las imágenes.

Sin embargo, los investigadores pudieron superar este problema manteniendo sólo «un conjunto de gaussianos 3D canónicos», o imágenes, y utilizaron análisis predictivos para determinar dónde y cómo se moverían de una marca de tiempo a la siguiente.

Puedes leer más acerca del Gaussian Splatting en cuatro dimensiones aquí.

Adobe Fast Fill: el relleno generativo llega al vídeo

A poco que hayas pasado algunos minutos editando y renderizando vídeos comprenderás que, lo que vamos a mostrarte a continuación, parezca producto de brujería. O de un ordenador del futuro: muy pronto será posible modificar elementos de un vídeo en tiempo real gracias al Fast Fill presentado por Adobe esta semana en su conferencia anual MAX, en la cual presenta todas sus novedades para el año siguiente.

Fast Fill lleva por primera vez la potencia de la IA generativa de Firefly al vídeo. Aprovechando la tecnología Generative Fill (que ya se usa en Photoshop para añadir, eliminar o ampliar el contenido de una imagen mediante indicaciones de texto), Fast Fill ofrece un primer vistazo a lo que la IA generativa impulsada por humanos podría permitir dentro de las herramientas de edición de vídeo de Adobe, incluidos Premiere Pro y After Effects.

Ejemplos de cómo funciona Adobe Fast Fill

Durante la conferencia MAX de Adobe hubo una demostración en directo en la que el ingeniero de investigación de Adobe Gabriel Huang mostró las capacidades de la herramienta.

Que es Adobe Fast Fill
Ejemplo de cómo la herramienta de Adobe Fast Fill puede eliminar elementos en tiempo real usando IA.

Primero, mostró cómo Fast Fill elimina limpiamente personas del fondo de un vídeo. Simplemente introduciendo un texto, los resultados generados por la inteligencia artificial ofrecían múltiples opciones para crear el producto final.

(Relacionado: ¿Cuándo podrá la inteligencia artificial devolverle la vida a nuestros muertos?)

En otro ejemplo, la herramienta se utilizó para añadir una corbata a un hombre que caminaba hacia la cámara. Seleccionando la zona del cuello e introduciendo el texto «corbata», Generative Fill generó automáticamente varios resultados de vídeo, permitiendo al usuario elegir el mejor.

Como funciona adobe fast fill
Adobe Fast Fill es capaz de añadir elementos en un vídeo en tiempo real como, por ejemplo, una corbata.

Lo que hace extraordinario a Fast Fill es que aplica automáticamente ediciones a todos los fotogramas del vídeo. También se ajusta a los cambios en la iluminación, las sombras y el movimiento de los objetos, garantizando un producto final coherente y profesional.

Y lo que hace extraordinarios los tiempos en los que vivimos es que nadie jamás podría haberse imaginado hace dos años que innovaciones como el Gaussian Splatting y el Fast Fill fuesen a estar a la vuelta de la esquina gracias a la inteligencia artificial.

Aún no sabemos cuándo podremos usarlos pero, wow.