HyperAIHyperAI
il y a 2 mois

Apprentissage de la représentation spatio-temporelle avec des réseaux résiduels pseudo-3D

Zhaofan Qiu; Ting Yao; Tao Mei
Apprentissage de la représentation spatio-temporelle avec des réseaux résiduels pseudo-3D
Résumé

Les Réseaux Neuronaux Convolutifs (CNN) sont considérés comme une classe puissante de modèles pour les problèmes de reconnaissance d'images. Néanmoins, l'utilisation d'un CNN pour l'apprentissage de représentations spatio-temporelles dans les vidéos n'est pas une tâche simple. Plusieurs études ont montré que la réalisation de convolutions 3D est une approche prometteuse pour capturer à la fois les dimensions spatiales et temporelles dans les vidéos. Cependant, le développement d'un CNN 3D très profond à partir de zéro entraîne des coûts computationnels élevés et des exigences en mémoire importantes. Une question légitime se pose : pourquoi ne pas réutiliser des réseaux 2D prédéfinis pour un CNN 3D ? Dans cet article, nous concevons plusieurs variantes de blocs bottleneck dans un cadre d'apprentissage résiduel en simulant des filtres de convolution $3\times3\times3$ avec des filtres de convolution $1\times3\times3$ sur le domaine spatial (équivalent à un CNN 2D) ainsi que des convolutions $3\times1\times1$ pour construire des connexions temporelles entre les cartes de caractéristiques adjacentes dans le temps. De plus, nous proposons une nouvelle architecture nommée Pseudo-3D Residual Net (P3D ResNet), qui exploite toutes les variantes de blocs mais les compose différemment selon leur position dans le ResNet, suivant la philosophie que l'amélioration de la diversité structurelle en allant plus profond peut augmenter la puissance des réseaux neuronaux. Notre P3D ResNet obtient des améliorations nettes sur l'ensemble de données Sports-1M pour la classification vidéo par rapport au CNN 3D et au CNN 2D basé sur les images individuelles, avec respectivement 5,3 % et 1,8 %. Nous examinons également davantage les performances généralisées de la représentation vidéo produite par notre P3D ResNet pré-entraîné sur cinq différents benchmarks et trois différentes tâches, démontrant des performances supérieures à plusieurs techniques d'avant-garde.