Correction des erreurs en reconnaissance vocale générative à l’aide de grands modèles linguistiques et de prompts d’activation de tâche

Nous explorons la capacité des grands modèles linguistiques (LLM) à agir comme post-processieurs de reconnaissance vocale, effectuant du rescorage et de la correction d'erreurs. Notre première attention se porte sur l'instruction par prompting, permettant aux LLM d'accomplir ces tâches sans adaptation fine, pour laquelle nous évaluons différentes stratégies de prompt, tant en apprentissage in-situ zéro-shot que few-shot, ainsi qu'une nouvelle méthode de prompting par activation de tâche qui combine des instructions causales et des exemples afin d’optimiser l’utilisation de la fenêtre contextuelle. Ensuite, nous démontrons qu’un rescorage uniquement basé sur l’apprentissage in-situ avec des LLM gelés atteint des performances compétitives par rapport au rescorage effectué par des modèles linguistiques adaptés au domaine, en utilisant un système de reconnaissance pré-entraîné pour le premier passage et en rescorant les sorties sur deux tâches hors domaine (ATIS et WSJ). En combinant des techniques de prompt avec une adaptation fine, nous parvenons à des taux d’erreur inférieurs à celui de l’oracle N-best, mettant ainsi en évidence le pouvoir de généralisation des LLM.