HyperAIHyperAI
il y a 2 mois

Il n'est jamais trop tard : Fusion de l'information acoustique dans les grands modèles linguistiques pour la reconnaissance automatique de la parole

Chen Chen; Ruizhe Li; Yuchen Hu; Sabato Marco Siniscalchi; Pin-Yu Chen; Ensiong Chng; Chao-Han Huck Yang
Il n'est jamais trop tard : Fusion de l'information acoustique dans les grands modèles linguistiques pour la reconnaissance automatique de la parole
Résumé

Des études récentes ont montré avec succès que les grands modèles de langage (LLMs) peuvent être utilisés efficacement pour la correction d'erreurs générative (GER) sur la sortie de la reconnaissance automatique de la parole (ASR). Plus précisément, un LLM est utilisé pour effectuer une correspondance directe entre la liste des N meilleures hypothèses générées par un système ASR et la transcription prédite. Cependant, malgré son efficacité, le GER introduit une incertitude supplémentaire dans les données car le LLM est formé sans prendre en compte les informations acoustiques présentes dans le signal vocal. Dans ce travail, nous visons à surmonter cette limitation en intégrant des informations acoustiques avant de générer la transcription prédite grâce à une nouvelle solution de fusion tardive appelée Fusion Dynamique Consciente de l'Incertitude (UADF). L'UADF est une approche de fusion multimodale intégrée au processus de décodage auto-régressif et fonctionne en deux étapes : (i) elle analyse et calibre d'abord la décision du LLM au niveau des tokens, puis (ii) elle assimile dynamiquement les informations provenant de la modalité acoustique. Des preuves expérimentales collectées à partir de diverses tâches ASR montrent que l'UADF dépasse les mécanismes de fusion existants de plusieurs manières. Elle apporte des améliorations significatives du taux d'erreur mot (WER) tout en atténuant les problèmes d'incertitude des données dans le LLM et en résolvant les mauvaises généralisations liées à une seule modalité lors de la fusion. Nous démontrons également que l'UADF s'adapte sans heurt à la reconnaissance vocale audio-visuelle.

Il n'est jamais trop tard : Fusion de l'information acoustique dans les grands modèles linguistiques pour la reconnaissance automatique de la parole | Articles de recherche récents | HyperAI