Catégorisation fine des vidéos avec attention à la réduction de la redondance

Pour les tâches de catégorisation à grains fins, les vidéos pourraient constituer une meilleure source que les images statiques, car elles ont plus de chances de contenir des motifs discriminants. Cependant, une séquence vidéo peut également comporter beaucoup de cadres redondants et non pertinents. La localisation des informations critiques d'intérêt est donc une tâche ardue. Dans cet article, nous proposons une nouvelle structure de réseau, appelée Redundancy Reduction Attention (RRA) [Réduction de la Redondance par l'Attention], qui apprend à se concentrer sur plusieurs motifs discriminants en réduisant les canaux de caractéristiques redondants. Plus précisément, elle résume d'abord la vidéo en additionnant pondérément tous les vecteurs de caractéristiques dans les cartes de caractéristiques des cadres sélectionnés grâce à une attention spatio-temporelle douce, puis prédit quels canaux il faut supprimer ou améliorer selon ce résumé grâce à une transformation non linéaire apprise. La suppression est réalisée en modulant les cartes de caractéristiques et en éliminant les activations faibles. Les cartes de caractéristiques mises à jour sont ensuite utilisées pour l'itération suivante. Enfin, la classification de la vidéo est effectuée sur la base de plusieurs résumés. La méthode proposée obtient des performances remarquables sur plusieurs jeux de données de classification vidéo. De plus, nous avons collecté deux grands jeux de données vidéo, YouTube-Birds et YouTube-Cars, pour des recherches futures en catégorisation vidéo à grains fins. Ces jeux de données sont disponibles à l'adresse http://www.cs.umd.edu/~chenzhu/fgvc.