MMS-LLaMA : Reconnaissance efficace de la parole audiovisuelle basée sur les LLM avec un nombre minimal de tokens multimodaux de parole

La reconnaissance vocale audio-visuelle (AVSR) permet une reconnaissance robuste de la parole dans des environnements bruyants en combinant des informations auditives et visuelles. Toutefois, les systèmes AVSR récents basés sur les grands modèles linguistiques (LLM) engendrent des coûts computationnels élevés en raison de la haute résolution temporelle des données audio-visuelles traitées par les LLM. Dans ce travail, nous proposons un cadre efficace de modèle linguistique multimodal pour la parole, qui minimise la longueur des tokens tout en préservant le contenu linguistique essentiel. Notre approche met en œuvre un module de fusion précoce audio-visuelle pour une intégration simplifiée des caractéristiques, un Q-Former audio-visuel pour la parole qui alloue dynamiquement les tokens en fonction de la durée d'entrée, ainsi qu'une stratégie raffinée d'allocation de requêtes reposant sur un prédicteur de vitesse de parole afin d’ajuster l’attribution des tokens selon la cadence de parole de chaque échantillon audio. Des expériences étendues sur le jeu de données LRS3 montrent que notre méthode atteint des performances de pointe avec un taux d’erreur de parole (WER) de 0,72 %, tout en utilisant uniquement 3,5 tokens par seconde. En outre, notre approche réduit l’utilisation de tokens de 86 % par rapport au cadre précédent de modèle linguistique multimodal pour la parole, tout en améliorant l’efficacité computationnelle grâce à une réduction de 35,7 % des FLOPs.