HyperAIHyperAI
il y a 11 jours

Apprentissage multitâche pour la détection active du locuteur audiovisuel

{Shiguang Shan, Shuang Yang, Jingyun Xiao, Yuanhang Zhang}
Apprentissage multitâche pour la détection active du locuteur audiovisuel
Résumé

Ce rapport décrit l'approche sous-jacente à notre soumission pour la tâche de détection du locuteur actif (tâche B-2) du ActivityNet Challenge 2019. Nous introduisons un nouveau modèle audio-visuel fondé sur un modèle visuel 3D-ResNet18 préentraîné pour la lecture labiale, ainsi que sur un modèle acoustique VGG-M préentraîné pour la synchronisation audio-vidéo. Le modèle est entraîné avec deux pertes selon une approche d'apprentissage multi-tâches : une perte contrastive visant à imposer une correspondance entre les caractéristiques audio et vidéo des locuteurs actifs, et une perte classique d’entropie croisée permettant d’obtenir des étiquettes de locuteur ou non-locuteur. Ce modèle atteint un mAP de 84,0 % sur l’ensemble de validation d’AVAActiveSpeaker. Les résultats expérimentaux mettent en évidence la capacité des embeddings préentraînés à se transférer entre différentes tâches et formats de données, ainsi que les avantages de la stratégie d’apprentissage multi-tâches proposée.

Apprentissage multitâche pour la détection active du locuteur audiovisuel | Articles de recherche récents | HyperAI