Un Modèle Léger pour la Détection d'Orateur Actif

La détection de l'orateur actif est une tâche complexe dans la compréhension des scénarios audiovisuels, visant à identifier qui parle dans un ou plusieurs scénarios d'orateurs. Cette tâche a reçu une attention considérable car elle est cruciale pour des applications telles que la diarisation vocale, le suivi de l'orateur et le montage vidéo automatique. Les études existantes tentent d'améliorer les performances en entrant plusieurs informations candidates et en concevant des modèles complexes. Bien que ces méthodes aient obtenu des performances exceptionnelles, leur consommation élevée de mémoire et de puissance de calcul les rend difficiles à appliquer dans des scénarios à ressources limitées. Par conséquent, nous avons construit une architecture légère pour la détection de l'orateur actif en réduisant le nombre de candidats d'entrée, en séparant les convolutions 2D et 3D pour l'extraction de caractéristiques audiovisuelles, et en utilisant une unité récurrente à porte (GRU) avec une faible complexité computationnelle pour la modélisation intermodale. Les résultats expérimentaux sur le jeu de données AVA-ActiveSpeaker montrent que notre cadre atteint des performances mAP compétitives (94,1% contre 94,2%), tout en présentant des coûts en ressources nettement inférieurs aux méthodes de pointe, notamment en termes de paramètres du modèle (1,0M contre 22,5M, environ 23 fois moins) et de FLOPs (0,6G contre 2,6G, environ 4 fois moins). De plus, notre cadre se distingue également par d'excellentes performances sur le jeu de données Columbia, démontrant ainsi sa bonne robustesse. Le code source et les poids du modèle sont disponibles à l'adresse suivante : https://github.com/Junhua-Liao/Light-ASD.