Distillation d'attention pour l'apprentissage des représentations vidéo

Nous abordons le problème difficile de l'apprentissage de représentations de mouvement à l'aide de modèles profonds pour la reconnaissance vidéo. À cette fin, nous utilisons des modules d'attention qui apprennent à mettre en évidence des régions dans la vidéo et à agréger des caractéristiques pour la reconnaissance. Plus précisément, nous proposons d'utiliser les cartes d'attention de sortie comme un moyen de transférer la représentation apprise d'un réseau de mouvement (flux) vers un réseau RGB. Nous étudions systématiquement la conception des modules d'attention et développons une nouvelle méthode d'attention distillée. Notre méthode est évaluée sur les principaux jeux de données d'actions, et améliore constamment les performances du réseau RGB de base d'une marge significative. De plus, nous démontrons que nos cartes d'attention peuvent exploiter les indices de mouvement pour apprendre à identifier l'emplacement des actions dans les images vidéo. Nous pensons que notre méthode constitue une étape vers l'apprentissage de représentations sensibles au mouvement dans les modèles profonds. Notre page de projet est disponible à l'adresse suivante : https://aptx4869lm.github.io/AttentionDistillation/