Seed-ASR : Comprendre la parole et les contextes variés grâce à une reconnaissance vocale basée sur les LLM

Les modèles modernes de reconnaissance automatique de la parole (ASR) doivent être capables de transcrire avec précision des signaux vocaux diversifiés (provenant de différents domaines, langues, accents, etc.) en tenant compte des informations contextuelles spécifiques aux divers scénarios d’application. Bien que les modèles classiques en bout-à-bout, combinés à des modèles de langage supplémentaires, fonctionnent efficacement dans des scénarios où les données sont bien adaptées, leurs performances s’approchent progressivement d’un plafond. Dans ce travail, nous introduisons Seed-ASR, un modèle de reconnaissance de la parole basé sur un grand modèle de langage (LLM). Seed-ASR repose sur le cadre des grands modèles de langage conditionnés par l’audio (AcLLM), en exploitant les capacités des LLM en alimentant le modèle avec des représentations continues de la parole ainsi que des informations contextuelles. Grâce à une formation à grande échelle par étapes et à l’activation de capacités sensibles au contexte au sein des LLM, Seed-ASR montre une amélioration significative par rapport aux modèles en bout-à-bout sur des jeux d’évaluation complets couvrant plusieurs domaines, accents/dialectes et langues. En outre, Seed-ASR peut être déployé de manière plus flexible pour répondre à des besoins spécifiques dans divers contextes sans nécessiter de modèles de langage supplémentaires. Par rapport aux récents grands modèles ASR publiés, Seed-ASR réduit de 10 % à 40 % les taux d’erreur en mots (ou en caractères, pour le chinois) sur des jeux de test publics en chinois et en anglais, démontrant ainsi sa puissance performante.