HyperAIHyperAI

Command Palette

Search for a command to run...

Il n'est jamais trop tard : Fusion de l'information acoustique dans les grands modèles linguistiques pour la reconnaissance automatique de la parole

Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Eng Siong Chng Chao-Han Huck Yang

Résumé

Des études récentes ont montré avec succès que les grands modèles de langage (LLMs) peuvent être utilisés efficacement pour la correction d'erreurs générative (GER) sur la sortie de la reconnaissance automatique de la parole (ASR). Plus précisément, un LLM est utilisé pour effectuer une correspondance directe entre la liste des N meilleures hypothèses générées par un système ASR et la transcription prédite. Cependant, malgré son efficacité, le GER introduit une incertitude supplémentaire dans les données car le LLM est formé sans prendre en compte les informations acoustiques présentes dans le signal vocal. Dans ce travail, nous visons à surmonter cette limitation en intégrant des informations acoustiques avant de générer la transcription prédite grâce à une nouvelle solution de fusion tardive appelée Fusion Dynamique Consciente de l'Incertitude (UADF). L'UADF est une approche de fusion multimodale intégrée au processus de décodage auto-régressif et fonctionne en deux étapes : (i) elle analyse et calibre d'abord la décision du LLM au niveau des tokens, puis (ii) elle assimile dynamiquement les informations provenant de la modalité acoustique. Des preuves expérimentales collectées à partir de diverses tâches ASR montrent que l'UADF dépasse les mécanismes de fusion existants de plusieurs manières. Elle apporte des améliorations significatives du taux d'erreur mot (WER) tout en atténuant les problèmes d'incertitude des données dans le LLM et en résolvant les mauvaises généralisations liées à une seule modalité lors de la fusion. Nous démontrons également que l'UADF s'adapte sans heurt à la reconnaissance vocale audio-visuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Il n'est jamais trop tard : Fusion de l'information acoustique dans les grands modèles linguistiques pour la reconnaissance automatique de la parole | Articles | HyperAI