HyperAIHyperAI

Command Palette

Search for a command to run...

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

Les progrès réalisés dans les réseaux de neurones profonds ont permis aux systèmes de reconnaissance automatique de la parole (ASR) d’atteindre une performance équivalente à celle des humains sur plusieurs jeux de données publics de paroles nettes. Toutefois, même les systèmes ASR les plus avancés subissent une dégradation des performances en présence de conditions défavorables, car un modèle acoustique bien entraîné est sensible aux variations du domaine de la parole, telles que le bruit ambiant. Intuitivement, les humains résolvent ce problème en s’appuyant sur leurs connaissances linguistiques : le sens de termes oraux ambigus est généralement déduit à partir de contextes, réduisant ainsi la dépendance vis-à-vis du système auditif. Inspirés par cette observation, nous introduisons la première benchmark open-source visant à exploiter des grands modèles linguistiques (LLMs) externes pour la correction des erreurs en ASR, où les hypothèses de décodage N-best fournissent des éléments informatifs pour prédire la transcription exacte. Cette approche marque un changement de paradigme par rapport à la stratégie classique de re-évaluation par modèle linguistique, qui ne peut sélectionner qu’une seule hypothèse candidate comme transcription finale. La benchmark proposée inclut un nouveau jeu de données, HyPoradise (HP), comprenant plus de 334 000 paires d’hypothèses N-best et de transcriptions exactes, couvrant des domaines de parole courants. À partir de ce jeu de données, nous évaluons trois types de techniques de correction d’erreurs basées sur les LLMs, utilisant des quantités variables de paires étiquetées hypothèses-transcriptions, ce qui entraîne une réduction significative du taux d’erreur de mots (WER). Les résultats expérimentaux démontrent que la technique proposée réalise une percée en dépassant la borne supérieure des méthodes traditionnelles basées sur le re-évaluation. Plus surprenant encore, un LLM doté d’un prompt raisonnable et de sa capacité générative parvient même à corriger des tokens absents de la liste N-best. Nous rendons nos résultats accessibles publiquement, accompagnés de modèles pré-entraînés, afin de permettre la reproductibilité des pipelines, offrant ainsi un nouveau paradigme d’évaluation pour la correction des erreurs en ASR à l’aide de LLMs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp