il y a 16 jours

Zero-AVSR : Reconnaissance de parole audiovisuelle zéro-shot avec des LLM en apprenant des représentations linguistiquement agnostiques du langage parlé

Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro

Résumé

Nous explorons un cadre novateur de reconnaissance vocale audio-visuelle (AVSR) en zéro-shot, baptisé Zero-AVSR, qui permet la reconnaissance de la parole dans des langues cibles sans nécessiter de données audio-visuelles de ces langues. Plus précisément, nous introduisons le Audio-Visual Speech Romanizer (AV-Romanizer), un modèle qui apprend des représentations vocales indépendantes des langues en prédisant du texte romanisé. Ensuite, en exploitant les puissantes capacités multilingues des grands modèles linguistiques (LLM), nous proposons de convertir le texte romanisé prédit en graphèmes propres à chaque langue, formant ainsi le cadre proposé, Cascaded Zero-AVSR. Poursuivant plus loin cette approche, nous explorons une méthode unifiée de Zero-AVSR en intégrant directement les représentations audio-visuelles encodées par l’AV-Romanizer dans le LLM. Cette intégration est réalisée grâce au fine-tuning de l’adaptateur et du LLM selon un schéma d’apprentissage multi-tâches que nous proposons. Afin de capturer la large diversité phonétique et linguistique, nous introduisons également un nouveau corpus multilingue audio-visuel romanisé, le Multilingual Audio-Visual Romanized Corpus (MARC), comprenant 2 916 heures de données audio-visuelles réparties sur 82 langues, accompagnées de transcriptions à la fois en graphèmes spécifiques à chaque langue et en texte romanisé. Des analyses et expérimentations approfondies confirment que le cadre proposé, Zero-AVSR, possède un potentiel significatif à étendre le support linguistique au-delà des langues observées durant l’entraînement de l’AV-Romanizer.