il y a 2 mois

Utilisation de l'apprentissage auto-supervisé unimodal pour la reconnaissance vocale multimodale audio-visuelle

Pan, Xichen ; Chen, Peiyu ; Gong, Yichen ; Zhou, Helong ; Wang, Xinbing ; Lin, Zhouhan

Résumé

L'entraînement de modèles basés sur les Transformers nécessite une grande quantité de données, tandis que l'obtention de données alignées et étiquetées en multimodalité est particulièrement coûteuse, surtout pour la reconnaissance vocale audio-visuelle (AVSR). Il est donc logique d'utiliser des données unimodales non étiquetées. D'un autre côté, bien que l'efficacité de l'apprentissage auto-supervisé à grande échelle soit bien établie dans les modalités audio et visuelle, l'intégration de ces modèles pré-entraînés dans un scénario multimodal reste peu explorée. Dans ce travail, nous avons réussi à exploiter l'apprentissage auto-supervisé unimodal pour améliorer la reconnaissance vocale audio-visuelle multimodale (AVSR). Plus précisément, les frontaux audio et visuel sont entraînés sur des jeux de données unimodaux à grande échelle, puis nous intégrons des composants de ces deux frontaux dans un cadre multimodal plus large qui apprend à reconnaître des données audio-visuelles parallèles en caractères grâce à une combinaison de décodage CTC et seq2seq. Nous montrons que les deux composants issus de l'apprentissage auto-supervisé unimodal coopèrent bien, ce qui permet au cadre multimodal d'obtenir des résultats compétitifs après ajustement fin. Notre modèle a été validé expérimentalement sur des tâches au niveau du mot et au niveau de la phrase. En particulier, même sans modèle linguistique externe, notre modèle proposé améliore considérablement les performances de pointe sur le jeu de données Lip Reading Sentences 2 (LRS2), avec une amélioration relative de 30 %.