HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage multitâche pour la détection active du locuteur audiovisuel

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

Résumé

Ce rapport décrit l'approche sous-jacente à notre soumission pour la tâche de détection du locuteur actif (tâche B-2) du ActivityNet Challenge 2019. Nous introduisons un nouveau modèle audio-visuel fondé sur un modèle visuel 3D-ResNet18 préentraîné pour la lecture labiale, ainsi que sur un modèle acoustique VGG-M préentraîné pour la synchronisation audio-vidéo. Le modèle est entraîné avec deux pertes selon une approche d'apprentissage multi-tâches : une perte contrastive visant à imposer une correspondance entre les caractéristiques audio et vidéo des locuteurs actifs, et une perte classique d’entropie croisée permettant d’obtenir des étiquettes de locuteur ou non-locuteur. Ce modèle atteint un mAP de 84,0 % sur l’ensemble de validation d’AVAActiveSpeaker. Les résultats expérimentaux mettent en évidence la capacité des embeddings préentraînés à se transférer entre différentes tâches et formats de données, ainsi que les avantages de la stratégie d’apprentissage multi-tâches proposée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp