HyperAIHyperAI
il y a 2 mois

LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif

Wang, Xizi ; Cheng, Feng ; Bertasius, Gedas ; Crandall, David
LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif
Résumé

La détection de l'orateur actif (ASD) vise à identifier qui parle dans chaque image d'une vidéo. L'ASD tire ses conclusions à partir des informations audio et visuelles provenant de deux contextes : le contexte intrapersonnel à long terme et le contexte interpersonal à court terme. Le contexte intrapersonnel à long terme modélise les dépendances temporelles du même orateur, tandis que le contexte interpersonal à court terme modélise les interactions entre les orateurs dans la même scène. Ces deux contextes sont complémentaires et peuvent aider à inférer l'orateur actif. Guidés par ces observations, nous proposons LoCoNet, un réseau de contexte long-court simple mais efficace qui modélise le contexte intrapersonnel à long terme et le contexte interpersonal à court terme. Nous utilisons l'auto-attention pour modéliser le contexte intrapersonnel à long terme en raison de son efficacité dans la modélisation des dépendances sur de longues périodes, et des blocs convolutifs qui captent les motifs locaux pour modéliser le contexte interpersonal à court terme.Des expériences approfondies montrent que LoCoNet atteint des performances de pointe sur plusieurs jeux de données, avec un mAP de 95,2 % (+1,1 %) sur AVA-ActiveSpeaker, 68,1 % (+22 %) sur le jeu de données Columbia, 97,2 % (+2,8 %) sur le jeu de données Talkies et 59,7 % (+8,0 %) sur le jeu de données Ego4D. De plus, dans des cas difficiles où plusieurs orateurs sont présents ou où le visage de l'orateur actif est beaucoup plus petit que ceux des autres personnes dans la même scène, LoCoNet surpassent les méthodes précédentes d'état de l'art avec une amélioration de 3,4 % sur le jeu de données AVA-ActiveSpeaker. Le code sera mis à disposition sur https://github.com/SJTUwxz/LoCoNet_ASD.

LoCoNet : Réseau de Contexte Long-Court pour la Détection d'Orateur Actif | Articles de recherche récents | HyperAI