Apprentissage de graphes spatio-temporels à long terme pour la détection d'orateurs actifs

La détection de l'orateur actif (ASD) dans des vidéos comportant plusieurs orateurs est une tâche complexe car elle nécessite d'apprendre des caractéristiques audiovisuelles efficaces et des corrélations spatio-temporelles sur de longues fenêtres temporelles. Dans cet article, nous présentons SPELL, un nouveau cadre d'apprentissage de graphes spatio-temporels capable de résoudre des tâches complexes telles que l'ASD. À cette fin, chaque personne dans un cadre vidéo est d'abord encodée dans un nœud unique pour ce cadre. Les nœuds correspondant à une seule personne sur plusieurs cadres sont connectés pour encoder leurs dynamiques temporelles. Les nœuds au sein d'un même cadre sont également connectés pour encoder les relations interpersonnelles. Ainsi, SPELL réduit l'ASD à une tâche de classification de nœuds. De manière importante, SPELL est capable de raisonner sur des contextes temporels longs pour tous les nœuds sans avoir recours à des réseaux neuronaux graphiques entièrement connectés qui sont coûteux en termes de calcul. Par le biais d'expériences approfondies sur le jeu de données AVA-ActiveSpeaker, nous démontrons que l'apprentissage de représentations basées sur des graphes peut améliorer considérablement les performances de détection de l'orateur actif grâce à sa structure spatiale et temporelle explicite. SPELL surpassant toutes les approches précédentes de pointe tout en nécessitant des ressources mémoire et computationnelles nettement inférieures, notre code est librement accessible sur https://github.com/SRA2/SPELL.