Activité audiovisuelle guidée pour l'association d'identité intermodale dans la détection d'un locuteur actif

La détection de l'orateur actif dans les vidéos vise à associer un visage source, visible dans les images vidéo, au discours sous-jacent dans le domaine audio. Les deux principales sources d'information pour établir une telle relation entre le discours et le visage sont i) l'activité visuelle et son interaction avec le signal de parole et ii) les co-occurrences des identités des orateurs entre les différents modes, sous forme de visages et de discours. Ces deux approches ont leurs limites : les modèles d'activité audiovisuelle peuvent être confondus avec d'autres activités vocales fréquentes, comme rire ou mâcher, tandis que les méthodes basées sur l'identité des orateurs sont limitées aux vidéos qui disposent d'informations suffisamment distinctives pour établir une association entre le discours et le visage. Comme ces deux approches sont indépendantes, nous examinons leur nature complémentaire dans cette étude. Nous proposons un cadre novateur non supervisé pour guider l'association intermodale des identités des orateurs avec l'activité audiovisuelle afin de détecter l'orateur actif. À travers des expériences menées sur des vidéos de médias divertissants issues de deux ensembles de données de référence, l'ensemble de données AVA active speaker (films) et l'ensemble de données Visual Person Clustering (émissions télévisées), nous montrons qu'une fusion tardive simple des deux approches améliore les performances de détection de l'orateur actif.