il y a 6 mois

Résumé

Les progrès réalisés dans les réseaux de neurones profonds ont permis aux systèmes de reconnaissance automatique de la parole (ASR) d’atteindre une performance équivalente à celle des humains sur plusieurs jeux de données publics de paroles nettes. Toutefois, même les systèmes ASR les plus avancés subissent une dégradation des performances en présence de conditions défavorables, car un modèle acoustique bien entraîné est sensible aux variations du domaine de la parole, telles que le bruit ambiant. Intuitivement, les humains résolvent ce problème en s’appuyant sur leurs connaissances linguistiques : le sens de termes oraux ambigus est généralement déduit à partir de contextes, réduisant ainsi la dépendance vis-à-vis du système auditif. Inspirés par cette observation, nous introduisons la première benchmark open-source visant à exploiter des grands modèles linguistiques (LLMs) externes pour la correction des erreurs en ASR, où les hypothèses de décodage N-best fournissent des éléments informatifs pour prédire la transcription exacte. Cette approche marque un changement de paradigme par rapport à la stratégie classique de re-évaluation par modèle linguistique, qui ne peut sélectionner qu’une seule hypothèse candidate comme transcription finale. La benchmark proposée inclut un nouveau jeu de données, HyPoradise (HP), comprenant plus de 334 000 paires d’hypothèses N-best et de transcriptions exactes, couvrant des domaines de parole courants. À partir de ce jeu de données, nous évaluons trois types de techniques de correction d’erreurs basées sur les LLMs, utilisant des quantités variables de paires étiquetées hypothèses-transcriptions, ce qui entraîne une réduction significative du taux d’erreur de mots (WER). Les résultats expérimentaux démontrent que la technique proposée réalise une percée en dépassant la borne supérieure des méthodes traditionnelles basées sur le re-évaluation. Plus surprenant encore, un LLM doté d’un prompt raisonnable et de sa capacité générative parvient même à corriger des tokens absents de la liste N-best. Nous rendons nos résultats accessibles publiquement, accompagnés de modèles pré-entraînés, afin de permettre la reproductibilité des pipelines, offrant ainsi un nouveau paradigme d’évaluation pour la correction des erreurs en ASR à l’aide de LLMs.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Traitement Du Langage Naturel

Text-to-Speech

Traitement Du Langage Naturel

Audio

Tâche

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Traitement Du Langage Naturel

Text-to-Speech

Traitement Du Langage Naturel

Audio

Tâche

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HyPoradise : Une base ouverte pour la reconnaissance vocale générative à l’aide de grands modèles linguistiques

Chen Chen Yuchen Hu Chao-Han Huck Yang Sabato Macro Siniscalchi Pin-Yu Chen Eng Siong Chng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters