Réseau de Marginalisation de l'Attention Moyenne pour l'Apprentissage Faiblement Supervisé

Dans le domaine de la localisation temporelle d'actions faiblement supervisée, les travaux précédents ont échoué à identifier des régions denses et intégrales pour chaque action complète en raison de la surestimation des régions les plus saillantes. Pour atténuer ce problème, nous proposons un réseau d'attention moyenne marginalisé (MAAN) visant à réduire de manière fondée la réponse dominante des régions les plus saillantes. Le MAAN utilise un nouveau module d'agrégation moyenne marginalisée (MAA) et apprend un ensemble de probabilités latentes discriminantes de manière end-to-end. L'agrégation MAA sélectionne plusieurs sous-ensembles parmi les caractéristiques des extraits vidéo selon un ensemble de probabilités latentes discriminantes et calcule l'espérance sur toutes les caractéristiques moyennes des sous-ensembles. Théoriquement, nous démontrons que le module MAA avec des probabilités latentes discriminantes apprises réduit efficacement la différence de réponses entre les régions les plus saillantes et les autres. Par conséquent, le MAAN est capable de générer de meilleures séquences d'activation de classe et d'identifier des régions d'action denses et intégrales dans les vidéos. De plus, nous proposons un algorithme rapide pour réduire la complexité de construction du MAA de O(2^T) à O(T^2). Des expériences approfondies sur deux grands ensembles de données vidéo montrent que notre MAAN obtient des performances supérieures en localisation temporelle d'actions faiblement supervisée.