Eleven Labs, empresa conocida por todos los entusiastas de la inteligencia artificial por su famosa herramienta para clonar voces y para generar voz a partir de texto, acaba de presentar una nueva funcionalidad para su Speech Synthesis para poder cambiar tu voz con IA y transformarla a tu gusto.

Esta nueva opción de Eleven Labs se llama Speech-to-speech (STS), y permite a los usuarios convertir una voz para que suene como otra y además poder conservar las emociones, el tono y la pronunciación. La herramienta puede extraer más emociones de una voz o utilizarse como referencia para pronunciar discursos.

(Relacionado: Cómo convertir texto en canción online gratis)

Cambiar voz con IA y speech-to-speech de Eleven Labs

La tecnología STS permite a los usuarios transformar la voz, controlar las emociones y perfeccionar la pronunciación. Esto se traduce en la posibilidad de lograr una síntesis de voz más expresiva y adaptada, que mejora la calidad y la personalización de la salida de voz para diversas aplicaciones. Abre un sinfín de posibilidades y aplicaciones en diversos sectores, como el entretenimiento, los medios de comunicación, la educación o el servicio de atención al cliente, entre otros.

Puedes ver un formidable ejemplo de la herramienta en acción en el siguiente vídeo. Además, puedes probarla en este enlace.

La calidad de las herramientas de habla sintética ha mejorado espectacularmente en los últimos meses, al igual que la velocidad de entrenamiento de un modelo de IA en una voz completamente nueva. Con esta herramienta, ElevenLabs facilita poder clonar tu propia voz a partir de un minuto de audio, o crear una describiendo cómo debería sonar.

Antes, esto sólo estaba disponible para la conversión de texto a voz, que a menudo perdía parte del significado oculto presente en el lenguaje hablado natural. También tenía problemas para procesar palabras desconocidas, como nombres de empresas o productos, o nombres de personas poco habituales.

(Relacionado: Ya se puede hacer canciones a partir de texto con Lyria, de Google & Youtube)

La empresa de inteligencia artificial ElevenLabs lanzó en agosto un modelo de aprendizaje profundo capaz de generar, a partir de texto, audio en 28 idiomas utilizando voces sintéticas o clonadas. Aunque si por algo es célebre esta empresa es por su asombrosa herramienta para clonar y replicar cualquier voz tras haberla sometido a un breve entrenamiento.

Actualizaciones de Eleven Labs para diciembre de 2023

Eleven Labs también ha introducido cambios en sus voces prefabricadas:la empresa deja de dar soporte a algunas voces, pero añadirá 20 nuevas voces a lo largo de las próximas semanas.

La empresa ha dicho que también empezará a ofrecer información en la interfaz de usuario sobre cuánto tiempo se espera que esté disponible cada voz. Otras actualizaciones incluyen la adición de normalización, un diccionario de pronunciación y más opciones de personalización para los Proyectos. Se han introducido el modelo Turbo y el formato uLaw 8khz, y ahora se pueden aplicar a los Proyectos las directrices de presentación y los metadatos ACX.

Puedes probar la herramienta Speech-to-Speech para cambiar tu voz con inteligencia artificial gratis haciendo clic en este enlace.