HyperAIHyperAI

Command Palette

Search for a command to run...

Seed-ASR : Comprendre la parole et les contextes variés grâce à une reconnaissance vocale basée sur les LLM

Résumé

Les modèles modernes de reconnaissance automatique de la parole (ASR) doivent être capables de transcrire avec précision des signaux vocaux diversifiés (provenant de différents domaines, langues, accents, etc.) en tenant compte des informations contextuelles spécifiques aux divers scénarios d’application. Bien que les modèles classiques en bout-à-bout, combinés à des modèles de langage supplémentaires, fonctionnent efficacement dans des scénarios où les données sont bien adaptées, leurs performances s’approchent progressivement d’un plafond. Dans ce travail, nous introduisons Seed-ASR, un modèle de reconnaissance de la parole basé sur un grand modèle de langage (LLM). Seed-ASR repose sur le cadre des grands modèles de langage conditionnés par l’audio (AcLLM), en exploitant les capacités des LLM en alimentant le modèle avec des représentations continues de la parole ainsi que des informations contextuelles. Grâce à une formation à grande échelle par étapes et à l’activation de capacités sensibles au contexte au sein des LLM, Seed-ASR montre une amélioration significative par rapport aux modèles en bout-à-bout sur des jeux d’évaluation complets couvrant plusieurs domaines, accents/dialectes et langues. En outre, Seed-ASR peut être déployé de manière plus flexible pour répondre à des besoins spécifiques dans divers contextes sans nécessiter de modèles de langage supplémentaires. Par rapport aux récents grands modèles ASR publiés, Seed-ASR réduit de 10 % à 40 % les taux d’erreur en mots (ou en caractères, pour le chinois) sur des jeux de test publics en chinois et en anglais, démontrant ainsi sa puissance performante.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp