23.7 C
Colombia
domingo, julio 6, 2025

CNTXT AI Lanza Munsit: el sistema de reconocimiento de voz en árabe más preciso jamás construido


En un momento decisivo para la inteligencia synthetic en el idioma árabe, Cntxt ai ha presentado Munsitun modelo de reconocimiento de voz en árabe de próxima generación que no solo es el más preciso jamás creado para el árabe, sino que supera decisivamente a los gigantes globales como OpenAi, Meta, Microsoft y as soon as en puntos de referencia estándar. Desarrollado en los EAU y adaptado para el árabe desde cero, Munsit representa un poderoso paso adelante en lo que CNTXT llama “IA soberana”, tecnología construida en la región, para la región, pero con competitividad international.

Las bases científicas de este logro se establecen en el artículo recién publicado del equipo, Avance del reconocimiento de voz en árabe a través del aprendizaje a gran escala débilmente supervisadoque introduce un método de entrenamiento escalable y eficiente en datos que aborde la escasez de larga information de los datos del habla árabe etiquetados. Ese método, el aprendizaje supervisado con el agitador, ha permitido al equipo construir un sistema que establezca una nueva barra para la calidad de la transcripción en el árabe estándar moderno (MSA) y más de 25 dialectos regionales.

Superar la sequía de datos en árabe asr

El árabe, a pesar de ser uno de los idiomas más hablados a nivel mundial y un idioma oficial de las Naciones Unidas, ha sido considerado durante mucho tiempo un idioma de baja recursos en el campo del reconocimiento del habla. Esto proviene de ambos complejidad morfológica y una falta de conjuntos de datos de habla grandes, diversos y etiquetados. A diferencia del inglés, que se beneficia de innumerables horas de datos de audio transcritos manualmente, la riqueza dialectal del árabe y la presencia digital fragmentada han planteado desafíos significativos para construir sistemas robustos de reconocimiento de voz automático (ASR).

En lugar de esperar el proceso lento y costoso de transcripción guide para alcanzar, CNTXT AI siguió un camino radicalmente más escalable: la supervisión débil. Su enfoque comenzó con un corpus masivo de más de 30,000 horas de audio árabe no etiquetado recolectado de diversas fuentes. A través de una tubería de procesamiento de datos personalizada, este audio en bruto se limpió, segmentó y se etiquetó automáticamente para producir un conjunto de datos de capacitación de 15,000 horas de alta calidad, uno de los corpus de habla árabe más grande y representativo jamás reunido.

Este proceso no dependía de la anotación humana. En cambio, CNTXT desarrolló un sistema de etapas múltiples para generar, evaluar y filtrar hipótesis de múltiples modelos ASR. Estas transcripciones se transmitieron cruzadas utilizando la distancia de Levenshtein para seleccionar las hipótesis más consistentes, luego pasaron a través de un modelo de idioma para evaluar su plausibilidad gramatical. Los segmentos que no cumplieron con los umbrales de calidad definidos se descartaron, asegurando que incluso sin la verificación humana, los datos de capacitación se mantuvieron confiables. El equipo refinó esta tubería a través de múltiples iteraciones, cada vez que mejora la precisión de la etiqueta al volver a conectar el sistema ASR y alimentarla nuevamente en el proceso de etiquetado.

Powering Munsit: la arquitectura conformador

En el corazón de Munsit se encuentra el modelo conformador, una arquitectura de crimson neuronal híbrida que combina la sensibilidad native de las capas convolucionales con las capacidades de modelado de secuencia international de los transformadores. Este diseño hace que el conformador sea particularmente experto en el manejo de los matices del lenguaje hablado, donde tanto las dependencias de largo alcance (como la estructura de la oración) como los detalles fonéticos de grano fino son cruciales.

CNTXT AI implementó una gran variante del conformador, entrenándolo desde cero utilizando espectrogramas MEL de 80 canales como entrada. El modelo consta de 18 capas e incluye aproximadamente 121 millones de parámetros. El entrenamiento se realizó en un clúster de alto rendimiento utilizando ocho GPU A100 NVIDIA con precisión BFLOAT16, lo que permite un manejo eficiente de tamaños de lotes masivos y espacios de características de alta dimensión. Para manejar la tokenización de la estructura morfológicamente rica del árabe, el equipo utilizó un tokenizador de oraciones entrenado específicamente en su corpus personalizado, lo que resultó en un vocabulario de 1.024 unidades de subvenciones.

A diferencia del entrenamiento ASR supervisado convencional, que generalmente requiere que cada clip de audio se mix con una etiqueta cuidadosamente transcrita, el método de CNTXT funcionó completamente en etiquetas débiles. Estas etiquetas, aunque más ruidosas que las verificadas humanas, se optimizaron a través de un circuito de retroalimentación que priorizó el consenso, la coherencia gramatical y la plausibilidad léxica. El modelo fue entrenado utilizando el Clasificación temporal de Connectionist (CTC) Función de pérdida, que es adecuada para el modelado de secuencia no alineado, crítica para las tareas de reconocimiento de voz donde el momento de las palabras habladas es variable e impredecible.

Dominando los puntos de referencia

Los resultados hablan por sí mismos. Munsit fue probado contra modelos ASR de código abierto y de código abierto en seis conjuntos de datos árabes de referencia: SADA, Frequent Voice 18.0, MASC (limpio y ruidoso), MGB-2 y Casablanca. Estos conjuntos de datos colectivamente abarcan docenas de dialectos y acentos en todo el mundo árabe, desde Arabia Saudita hasta Marruecos.

En todos los puntos de referencia, Munsit-1 logró una tasa de error de palabra promedio (WER) de 26.68 y una tasa de error de carácter (CER) de 10.05. En comparación, la versión de mejor rendimiento de OpenAI’s Whisper registró un promedio de 36.86 y CER de 17.21. La costura de Meta, otro modelo multilingüe de última generación, llegó aún más alto. Munsit superó a todos los demás sistemas en datos limpios y ruidosos, y demostró una robustez particularmente fuerte en condiciones ruidosas, un issue crítico para aplicaciones del mundo actual como centros de llamadas y servicios públicos.

La brecha period igualmente marcada contra los sistemas patentados. Munsit superó a los modelos ASR árabe de Microsoft Azure, ElevenLabs Scribe e incluso la función de transcripción GPT-4O de OpenAI. Estos resultados no son ganancias marginales: representan una mejora relativa promedio de 23.19% en WER y 24.78% en CER en comparación con la línea de base abierta más fuerte, estableciendo Munsit como el claro líder en el reconocimiento de voz árabe.

Una plataforma para el futuro de la voz árabe ai

Si bien Munsit-1 ya está transformando las posibilidades de transcripción, subtitulación y atención al cliente en los mercados de habla árabe, CNTXT AI ve este lanzamiento como el comienzo. La compañía prevé un conjunto completo de tecnologías de voz en lenguaje árabe, que incluyen texto a voz, asistentes de voz y sistemas de traducción en tiempo actual, todos basados ​​en infraestructura soberana e IA regionalmente relevante.

“Munsit es más que un gran avance en el reconocimiento de voz”, dijo Mohammad Abu Sheikh, CEO de CNTXT AI. “Es una declaración que el árabe pertenece a la vanguardia de la IA international. Hemos demostrado que la IA de clase mundial no necesita importarse, se puede construir aquí, en árabe, para el árabe”.

Con el surgimiento de modelos específicos de la región como Munsit, la industria de la IA está entrando en una nueva period, una en la que la relevancia lingüística y cultural no se sacrifica en la búsqueda de la excelencia técnica. De hecho, con MunsitCntxt ai ha demostrado que son lo mismo.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles