Apprentissage de la représentation spatio-temporelle avec diffusion locale et globale

Les Réseaux Neuronaux Convolutifs (CNN) sont considérés comme une classe puissante de modèles pour les problèmes de reconnaissance visuelle. Néanmoins, les filtres convolutifs dans ces réseaux sont des opérations locales qui ignorent la dépendance à longue portée. Ce défaut devient encore plus prononcé particulièrement pour la reconnaissance vidéo, car la vidéo est un média informationnellement dense avec des variations temporelles complexes. Dans cet article, nous présentons un nouveau cadre visant à améliorer l'apprentissage des représentations spatio-temporelles par Diffusion Locale et Globale (LGD). Plus précisément, nous construisons une nouvelle architecture de réseau neuronal qui apprend les représentations locales et globales en parallèle. Cette architecture est composée de blocs LGD, où chaque bloc met à jour les caractéristiques locales et globales en modélisant les diffusions entre ces deux représentations. Les diffusions interagissent efficacement les deux aspects de l'information, c'est-à-dire localisée et holistique, pour une méthode d'apprentissage des représentations plus puissante. De plus, un classifieur noyau est introduit pour combiner les représentations provenant des deux aspects pour la reconnaissance vidéo. Nos réseaux LGD obtiennent des améliorations nettes sur les grands ensembles de données de classification vidéo Kinetics-400 et Kinetics-600 par rapport aux meilleurs concurrents, avec des gains respectivement de 3,5 % et 0,7 %. Nous examinons également davantage la généralisation des représentations locales et globales produites par nos réseaux LGD pré-entraînés sur quatre différents benchmarks pour les tâches de reconnaissance d'actions vidéo et de détection d'actions spatio-temporelles. Des performances supérieures à plusieurs techniques de pointe sur ces benchmarks sont rapportées. Le code est disponible à : https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.