Imagina escribir «música de introducción dramática» y escuchar una sinfonía, o escribir «pasos espeluznantes» y obtener efectos de sonido de alta calidad. Esa es la promesa de Stable Audio, una herramienta para crear música con inteligencia artificial gratis, o mejor dicho, un modelo de IA de texto a audio. Fue anunciado este miércoles por Stability AI y aseguran que puede sintetizar música estéreo a 44,1 kHz o sonidos a partir de descripciones escritas. Dentro de poco, una tecnología similar podría disputar el puesto a los músicos.

(Relacionado: Cómo convertir texto en canción online gratis)

Crear música con IA gratis ya es una realidad al alcance de todos

Stability AI es la empresa que ayudó a financiar la creación de Stable Diffusion, un modelo de síntesis de imágenes por difusión latente lanzado en agosto de 2022. No contenta con limitarse a generar imágenes, la empresa se ha introducido en el mundo del audio respaldando a Harmonai, un laboratorio de IA que lanzó en septiembre el generador de música Dance Diffusion.

Ahora, Stability y Harmonai quieren introducirse en la producción comercial de audio por IA con Stable Audio. A juzgar por las muestras de producción, parece una mejora significativa de la calidad de audio con respecto a los generadores de audio de IA que hemos visto hasta ahora.

(Relacionado: Ya se puede hacer canciones a partir de texto con Lyria, de Google & Youtube)

En su página promocional, Stability ofrece ejemplos del modelo de IA en acción con indicaciones como «epic trailer music intense tribal percussion and brass» y «lofi hip hop beat melodic chillhop 85 bpm». También ofrece muestras de efectos sonoros generados con Stable Audio, como un piloto de avión hablando por un intercomunicador y gente hablando en un restaurante concurrido.

Una IA con 800.000 archivos y 20.000 horas de entrenamiento

Para entrenar su modelo, Stability se asoció con el proveedor de música de archivo AudioSparx y obtuvo la licencia de un conjunto de datos «formado por más de 800.000 archivos de audio que contienen música, efectos de sonido y stems de un solo instrumento, así como los metadatos de texto correspondientes». Tras introducir 19.500 horas de audio en el modelo, Stable Audio sabe cómo imitar ciertos sonidos que ha escuchado porque los ha asociado a descripciones textuales dentro de su red neuronal.

Stable Audio contiene varias partes que trabajan juntas para crear audio personalizado rápidamente. Una de las partes reduce el archivo de audio de forma que se mantengan las características importantes y se elimine el ruido innecesario. Esto hace que el sistema sea más rápido de enseñar y de crear nuevo audio. Otra parte utiliza texto (metadatos descriptivos de la música y los sonidos) para orientar el tipo de audio que se genera.

Para acelerar las cosas, la arquitectura de Stable Audio funciona con una representación de audio muy simplificada y comprimida para reducir el tiempo de inferencia (la cantidad de tiempo que tarda un modelo de aprendizaje automático en generar una salida una vez que se le ha dado una entrada).

(Relacionado: Crear música hip hip con IA: ¿Sí o no?)

Creación de audio con IA a calidad CD

Según Stability AI, Stable Audio puede renderizar 95 segundos de audio estéreo de 16 bits a una frecuencia de muestreo de 44,1 kHz (a menudo denominada «calidad de CD» porque coincide con las especificaciones técnicas del formato de CD) en menos de un segundo en una GPU Nvidia A100. La A100 es una robusta GPU para centros de datos diseñada para el uso de IA, y es mucho más capaz que una GPU de juegos de sobremesa típica.

(Relacionado: Guía para crear logos con IA gratis)

Aunque el audio generado puede cumplir las especificaciones de un CD en cuanto a profundidad de bits y frecuencia de muestreo, cabe señalar que la calidad perceptiva real de la música producida por Stable Audio puede variar enormemente, sobre todo porque el audio se genera a partir de una representación comprimida en el conjunto de datos.

Como ya se ha mencionado, Stable Audio no es el primer generador de música basado en técnicas de difusión latente. Merece la pena destacar Riffusion, una versión de audio de Stable Diffusion realizada por un aficionado, aunque las generaciones resultantes estaban lejos de las muestras de Stable Audio en cuanto a calidad. En enero, Google lanzó MusicLM, un generador de música por IA para audio de 24 kHz, y Meta lanzó en agosto un conjunto de herramientas de audio de código abierto (incluido un generador de texto a música) llamado AudioCraft. Ahora, con audio estéreo a 44,1 kHz, Stable Diffusion sube la apuesta.

(Relacionado: Rask, la app de doblaje a otros idiomas detrás del fenómeno de Belén Esteban y Broncano)

La opción gratuita para hacer música con IA tendrá un límite de 20 segundos

Stability dice que Stable Audio estará disponible en un nivel gratuito y un plan Pro mensual de 12 dólares. Con la opción gratuita, los usuarios pueden generar hasta 20 pistas al mes, cada una con una duración máxima de 20 segundos.

  • El plan Pro amplía estos límites y permite generar 500 pistas al mes con una duración máxima de 90 segundos.
  • Se espera que las futuras versiones de Stability incluyan modelos de código abierto basados en la arquitectura de Stable Audio, así como código de formación para los interesados en desarrollar modelos de generación de audio.

Tal y como están las cosas, parece que con Stable Audio podríamos haber alcanzado el techo en cuanto a música generada por IA con calidad de producción, teniendo en cuenta su fidelidad de audio. ¿Estarán contentos los músicos si son sustituidos por modelos de IA? Probablemente no, si la historia nos ha enseñado algo sobre las protestas de la IA en el campo de las artes visuales. Por ahora, un ser humano puede superar con facilidad cualquier cosa que genere la IA, pero puede que no sea así por mucho tiempo. En cualquier caso, el audio generado por IA puede convertirse en una herramienta más en la caja de herramientas de producción de audio de un profesional.