Command Palette
Search for a command to run...
Apprentissage multitâche pour la détection active du locuteur audiovisuel
Apprentissage multitâche pour la détection active du locuteur audiovisuel
Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang
Résumé
Ce rapport décrit l'approche sous-jacente à notre soumission pour la tâche de détection du locuteur actif (tâche B-2) du ActivityNet Challenge 2019. Nous introduisons un nouveau modèle audio-visuel fondé sur un modèle visuel 3D-ResNet18 préentraîné pour la lecture labiale, ainsi que sur un modèle acoustique VGG-M préentraîné pour la synchronisation audio-vidéo. Le modèle est entraîné avec deux pertes selon une approche d'apprentissage multi-tâches : une perte contrastive visant à imposer une correspondance entre les caractéristiques audio et vidéo des locuteurs actifs, et une perte classique d’entropie croisée permettant d’obtenir des étiquettes de locuteur ou non-locuteur. Ce modèle atteint un mAP de 84,0 % sur l’ensemble de validation d’AVAActiveSpeaker. Les résultats expérimentaux mettent en évidence la capacité des embeddings préentraînés à se transférer entre différentes tâches et formats de données, ainsi que les avantages de la stratégie d’apprentissage multi-tâches proposée.