Détection de l'orateur actif de bout en bout

Les récentes avancées dans le problème de détection du locuteur actif (Active Speaker Detection, ASD) reposent sur un processus en deux étapes : l'extraction de caractéristiques et l'agrégation de contexte spatio-temporel. Dans cet article, nous proposons un flux de travail ASD intégré où l'apprentissage des caractéristiques et les prédictions contextuelles sont appris conjointement. Notre réseau entièrement entraînable apprend simultanément des plongements multimodaux et agrège le contexte spatio-temporel. Cela permet d'obtenir des représentations de caractéristiques plus adaptées et une meilleure performance dans la tâche ASD. Nous introduisons également des blocs de réseau neuronal graphique entrelacés (interleaved Graph Neural Network, iGNN), qui divisent la propagation des messages selon les principales sources de contexte dans le problème ASD. Les expériences montrent que les caractéristiques agrégées provenant des blocs iGNN sont plus adaptées à l'ASD, conduisant à des performances de pointe. Enfin, nous concevons une stratégie faiblement supervisée, qui démontre que le problème ASD peut également être abordé en utilisant des données audiovisuelles tout en s'appuyant uniquement sur des annotations audio. Nous atteignons cela en modélisant la relation directe entre le signal audio et les sources sonores possibles (locuteurs), ainsi qu'en introduisant une perte contrastive. Toutes les ressources de ce projet seront mises à disposition sur : https://github.com/fuankarion/end-to-end-asd.