HyperAIHyperAI
il y a 17 jours

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques

Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng
HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques
Résumé

Les progrès réalisés dans les réseaux de neurones profonds ont permis aux systèmes de reconnaissance automatique de la parole (ASR) d’atteindre une performance équivalente à celle des humains sur plusieurs jeux de données publics de paroles nettes. Toutefois, même les systèmes ASR les plus avancés subissent une dégradation des performances en présence de conditions défavorables, car un modèle acoustique bien entraîné est sensible aux variations du domaine de la parole, telles que le bruit ambiant. Intuitivement, les humains résolvent ce problème en s’appuyant sur leurs connaissances linguistiques : le sens de termes oraux ambigus est généralement déduit à partir de contextes, réduisant ainsi la dépendance vis-à-vis du système auditif. Inspirés par cette observation, nous introduisons la première benchmark open-source visant à exploiter des grands modèles linguistiques (LLMs) externes pour la correction des erreurs en ASR, où les hypothèses de décodage N-best fournissent des éléments informatifs pour prédire la transcription exacte. Cette approche marque un changement de paradigme par rapport à la stratégie classique de re-évaluation par modèle linguistique, qui ne peut sélectionner qu’une seule hypothèse candidate comme transcription finale. La benchmark proposée inclut un nouveau jeu de données, HyPoradise (HP), comprenant plus de 334 000 paires d’hypothèses N-best et de transcriptions exactes, couvrant des domaines de parole courants. À partir de ce jeu de données, nous évaluons trois types de techniques de correction d’erreurs basées sur les LLMs, utilisant des quantités variables de paires étiquetées hypothèses-transcriptions, ce qui entraîne une réduction significative du taux d’erreur de mots (WER). Les résultats expérimentaux démontrent que la technique proposée réalise une percée en dépassant la borne supérieure des méthodes traditionnelles basées sur le re-évaluation. Plus surprenant encore, un LLM doté d’un prompt raisonnable et de sa capacité générative parvient même à corriger des tokens absents de la liste N-best. Nous rendons nos résultats accessibles publiquement, accompagnés de modèles pré-entraînés, afin de permettre la reproductibilité des pipelines, offrant ainsi un nouveau paradigme d’évaluation pour la correction des erreurs en ASR à l’aide de LLMs.

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques | Articles de recherche récents | HyperAI