Meta AI ha anunciado el desarrollo de Seamless Communication, un conjunto de cuatro modelos de inteligencia artificial que ayudarán enormemente a lograr una comunicación oral más natural, auténtica y veloz entre idiomas.

Con este anuncio nos acercamos cada vez más al sueño de poder conseguir un traductor universal de voz en tiempo real. Los modelos se han hecho públicos esta semana junto con documentos de investigación y datos complementarios.

Relacionado: ¿Conoces los podcasts traducidos y doblados de Spotify?

Los cuatro modelos Seamless de traducción en tiempo real

El modelo estrella de traducción presentado por Meta fusiona en un sistema unificado las capacidades de otros tres modelos (SeamlessExpressive, SeamlessStreaming y SeamlessM4T v2).

Modelos Seamless de traduccion en tiempo real de Meta
Modelos Seamless de traducción en tiempo real de Meta.

Aunque en principio tanta nomenclatura puede parecer un poco liosa, la palabra clave aquí es Seamless, nombre que tendrá criatura que (si a Meta le sale bien la jugada) está llamada a revolucionar las comunicaciones mundiales. Según el documento de investigación, Seamless es «el primer sistema disponible públicamente que desbloquea la comunicación multilingüe expresiva en tiempo real».

Meta: «A diferencia de los sistemas convencionales, que traducen cuando el interlocutor ha terminado la frase, SeamlessStreaming traduce mientras el interlocutor sigue hablando, lo que permite a la persona que escucha oír una traducción más rápidamente».

Las capacidades de estos modelos podrían permitir nuevas experiencias de comunicación basadas en la voz, desde conversaciones multilingües en tiempo real utilizando gafas inteligentes hasta vídeos y podcasts traducidos y doblados automáticamente.  A continuación te resumimos las características más importantes de cada modelo Seamless de Meta.

Principales características del sistema Seamless de traducción y doblaje en tiempo real

Primer modelo de traducción de IA multimodal y multilingüe todo en uno que permite a las personas comunicarse sin esfuerzo a través del habla y el texto en diferentes idiomas. SeamlessM4T es compatible con:

  • Reconocimiento de voz en casi 100 idiomas
  • Traducción de voz a texto para casi 100 idiomas de entrada y salida
  • Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 36 (incluido el inglés) de salida
  • Traducción de texto a texto en casi 100 idiomas
  • Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (incluido el inglés) de salida.
Asi funciona el sistema Seamless de traduccion de Meta
Así funciona el sistema Seamless de traducción de Meta.

Desde Meta afirman que Seamless Expressive es el primer sistema disponible públicamente que permite la comunicación expresiva en varios idiomas en inglés, español, alemán, francés, italiano y chino. Utiliza un modelo que conserva la emoción y el estilo del hablante y tiene en cuenta la velocidad y el ritmo del habla.

Para que nos entendamos, la herramienta recuerda a Rask (la IA que se popularizó hace unos meses en España con los cómicos doblajes al inglés de Belén Esteban, Mariano Rajoy o El Fary. Puedes probarla a través de este enlace.

Relacionado: Rask, la app de doblaje a otros idiomas detrás del fenómeno de Belén Esteban y Broncano

Meta lo comparte todo

Además de los modelos, la empresa responsable de Facebook (y del chatbot de Kendall Jenner) ha publicado metadatos, datos y herramientas de alineación de datos para ayudar a la comunidad investigadora:

  • Metadatos de una extensión de SeamlessAlign correspondiente a 115.000 horas adicionales de alineaciones de voz y texto que se suman a las 470.000 horas existentes.
  • Metadatos de SeamlessAlignExpressive, una versión del conjunto de datos anterior centrada en la expresividad.
  • Herramientas para ayudar a la comunidad investigadora a recopilar más conjuntos de datos para la traducción

«En consonancia con nuestro enfoque de ciencia abierta, publicamos SeamlessM4T con una licencia de investigación para que los investigadores y desarrolladores puedan aprovechar este trabajo. También publicamos los metadatos de SeamlessAlign, el mayor conjunto de datos de traducción multimodal abierto hasta la fecha, con un total de 270.000 horas de alineaciones de voz y texto extraídas».

Los modelos Seamless están disponibles a través de Hugging FaceGithub.