HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-AVSR : Reconnaissance de parole audiovisuelle zéro-shot avec des LLM en apprenant des représentations linguistiquement agnostiques du langage parlé

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

Résumé

Nous explorons un cadre novateur de reconnaissance vocale audio-visuelle (AVSR) en zéro-shot, baptisé Zero-AVSR, qui permet la reconnaissance de la parole dans des langues cibles sans nécessiter de données audio-visuelles de ces langues. Plus précisément, nous introduisons le Audio-Visual Speech Romanizer (AV-Romanizer), un modèle qui apprend des représentations vocales indépendantes des langues en prédisant du texte romanisé. Ensuite, en exploitant les puissantes capacités multilingues des grands modèles linguistiques (LLM), nous proposons de convertir le texte romanisé prédit en graphèmes propres à chaque langue, formant ainsi le cadre proposé, Cascaded Zero-AVSR. Poursuivant plus loin cette approche, nous explorons une méthode unifiée de Zero-AVSR en intégrant directement les représentations audio-visuelles encodées par l’AV-Romanizer dans le LLM. Cette intégration est réalisée grâce au fine-tuning de l’adaptateur et du LLM selon un schéma d’apprentissage multi-tâches que nous proposons. Afin de capturer la large diversité phonétique et linguistique, nous introduisons également un nouveau corpus multilingue audio-visuel romanisé, le Multilingual Audio-Visual Romanized Corpus (MARC), comprenant 2 916 heures de données audio-visuelles réparties sur 82 langues, accompagnées de transcriptions à la fois en graphèmes spécifiques à chaque langue et en texte romanisé. Des analyses et expérimentations approfondies confirment que le cadre proposé, Zero-AVSR, possède un potentiel significatif à étendre le support linguistique au-delà des langues observées durant l’entraînement de l’AV-Romanizer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Zero-AVSR : Reconnaissance de parole audiovisuelle zéro-shot avec des LLM en apprenant des représentations linguistiquement agnostiques du langage parlé | Articles | HyperAI