HyperAIHyperAI

Command Palette

Search for a command to run...

Utilisation de l'apprentissage auto-supervisé unimodal pour la reconnaissance vocale multimodale audio-visuelle

Pan Xichen ; Chen Peiyu ; Gong Yichen ; Zhou Helong ; Wang Xinbing ; Lin Zhouhan

Résumé

L'entraînement de modèles basés sur les Transformers nécessite une grande quantité de données, tandis que l'obtention de données alignées et étiquetées en multimodalité est particulièrement coûteuse, surtout pour la reconnaissance vocale audio-visuelle (AVSR). Il est donc logique d'utiliser des données unimodales non étiquetées. D'un autre côté, bien que l'efficacité de l'apprentissage auto-supervisé à grande échelle soit bien établie dans les modalités audio et visuelle, l'intégration de ces modèles pré-entraînés dans un scénario multimodal reste peu explorée. Dans ce travail, nous avons réussi à exploiter l'apprentissage auto-supervisé unimodal pour améliorer la reconnaissance vocale audio-visuelle multimodale (AVSR). Plus précisément, les frontaux audio et visuel sont entraînés sur des jeux de données unimodaux à grande échelle, puis nous intégrons des composants de ces deux frontaux dans un cadre multimodal plus large qui apprend à reconnaître des données audio-visuelles parallèles en caractères grâce à une combinaison de décodage CTC et seq2seq. Nous montrons que les deux composants issus de l'apprentissage auto-supervisé unimodal coopèrent bien, ce qui permet au cadre multimodal d'obtenir des résultats compétitifs après ajustement fin. Notre modèle a été validé expérimentalement sur des tâches au niveau du mot et au niveau de la phrase. En particulier, même sans modèle linguistique externe, notre modèle proposé améliore considérablement les performances de pointe sur le jeu de données Lip Reading Sentences 2 (LRS2), avec une amélioration relative de 30 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp