MAAS : Assignation Multi-modale pour la Détection d'Orateur Actif

La détection de l'orateur actif nécessite une intégration solide des indices multimodaux.Bien que les modalités individuelles puissent approximer une solution, des prédictions précises ne peuvent être réalisées qu'en fusionnant explicitement les caractéristiques audio et visuelles et en modélisant leur progression temporelle. Malgré sa nature intrinsèquement multimodale, les méthodes actuelles se concentrent encore sur la modélisation et la fusion de caractéristiques audiovisuelles à court terme pour chaque orateur, souvent au niveau de l'image. Dans cet article, nous présentons une nouvelle approche de détection de l'orateur actif qui aborde directement la nature multimodale du problème et offre une stratégie simple où les caractéristiques visuelles indépendantes des orateurs potentiels dans la scène sont attribuées à un événement vocal détecté précédemment. Nos expériences montrent qu'une petite structure de données graphiques construite à partir d'une seule image permet d'approximer le problème d'attribution audio-visuelle instantanée. De plus, l'extension temporelle de ce graphe initial atteint un nouveau niveau d'état de l'art sur le jeu de données AVA-ActiveSpeaker avec un mAP de 88,8 %.