HyperAIHyperAI
il y a 2 mois

Réseaux d'Apparence et de Relation pour la Classification Vidéo

Limin Wang; Wei Li; Wen Li; Luc Van Gool
Réseaux d'Apparence et de Relation pour la Classification Vidéo
Résumé

L'apprentissage de caractéristiques spatio-temporelles dans les vidéos est un problème fondamental en vision par ordinateur. Cet article présente une nouvelle architecture, appelée Réseau d'Apparence et de Relation (Appearance-and-Relation Network, ARTNet), permettant d'apprendre la représentation vidéo de manière end-to-end. Les ARTNets sont construits en empilant plusieurs blocs génériques, nommés SMART, dont l'objectif est de modéliser simultanément l'apparence et la relation à partir des entrées RGB de manière séparée et explicite. Plus précisément, les blocs SMART décomposent le module d'apprentissage spatio-temporel en une branche d'apparence pour la modélisation spatiale et une branche de relation pour la modélisation temporelle. La branche d'apparence est mise en œuvre sur la base de la combinaison linéaire des pixels ou des réponses des filtres dans chaque image, tandis que la branche de relation est conçue sur la base des interactions multiplicatives entre les pixels ou les réponses des filtres sur plusieurs images. Nous avons effectué des expériences sur trois benchmarks de reconnaissance d'actions : Kinetics, UCF101 et HMDB51, démontrant que les blocs SMART obtiennent une amélioration évidente par rapport aux convolutions 3D pour l'apprentissage de caractéristiques spatio-temporelles. Avec les mêmes paramètres d'entraînement, les ARTNets atteignent des performances supérieures sur ces trois jeux de données par rapport aux méthodes existantes state-of-the-art.

Réseaux d'Apparence et de Relation pour la Classification Vidéo | Articles de recherche récents | HyperAI