Publicado 11/11/2025 06:39

Meta lleva la transcripción de voz a texto a más de 1.600 idiomas, 500 de ellos por primera vez

La palabra 'bienvenido' en distintos idiomas
La palabra 'bienvenido' en distintos idiomas - UNSPLASH/ZHENDONG WANG

   MADRID, 11 Nov. (Portaltic/EP) -

   Meta ha presentado un modelo con capacidades de reconocimiento automático del habla para más de 1.600 idiomas, incluidos los menos representados, que considera "un avance significativo hacia un sistema de transcripción verdaderamente universal".

   La compañía tecnológica ha presentado las nuevas herramientas con las que busca reducir la brecha que existe con la tecnología de reconocimiento automático del habla, para que los sistemas de conversión de voz a texto de alta calidad lleguen también a los idiomas menos hablados y con pocos recursos.

    Una de esas herramientas es Omnilingual ASR, un conjunto de modelos que ofrece reconocimiento automático del habla en más de 1.600 idiomas, incluyendo 500 idiomas que nunca antes habían sido transcritos por IA. Para la compañía, "representa un avance significativo hacia la creación de un sistema de transcripción verdaderamente universal".

    Según sus datos, Omnilingual ASR "alcanza un rendimiento de vanguardia en más de 1.600 idiomas, con tasas de error de caracteres inferiores al 10% en el 78% de ellos". Los idiomas con pocos recursos y menos de diez horas de entrenamiento presentan tasas de error de caracteres inferiores al 10% en el 36 % de los casos.

   Los sistemas de reconocimiento automático del habla requieren grandes cantidades de datos del idioma para poder realizar transcripciones con precisión. No todos cuentan con los recursos suficientes, por eso Meta ha introducido un enfoque basado en el aprendizaje contextual para que a partir de unos pocos ejemplos de audio y texto emparejados se puedan obtener transcripciones de calidad aceptable.

    "Si bien el rendimiento sin ejemplos de aprendizaje aún no alcanza el de los sistemas completamente entrenados, ofrece una vía mucho más escalable para incorporar nuevos idiomas al ámbito digital", señala la compañía en su blog de IA.

    Meta ofrece Omnilingual ASR en dos tamaños: con 7.000 millones de parámetros y con 300 millones de parámetros, este último para su uso en dispositivos de bajo consumo; y lo acompaña de su modelo de reconocimiento de voz de propósito general wav2vec 2.0. Todas estas herramientas están disponibles bajo una modalidad de código abierto.

    Asimismo, ha facilitado el corpus Omnilingual ASR, que el conjunto de datos de entrenamiento de Omnilingual ASR, que es "uno de los más grandes jamás creados para este fin, tanto por su volumen como por su diversidad lingüística", y que "abarca cientos de lenguas nunca antes vistas por los sistemas de ASR".

Contador

Contenido patrocinado