Réseau de neurones convolutif tubulaire (T-CNN) pour la détection d'actions dans les vidéos

L'apprentissage profond a démontré son efficacité pour la classification d'images et la détection d'objets. Cependant, son impact sur l'analyse vidéo (par exemple, la détection et la reconnaissance d'actions) a été limité en raison de la complexité des données vidéo et du manque d'annotations. Les approches précédentes basées sur les réseaux neuronaux convolutifs (CNN) pour la détection d'actions dans les vidéos comprennent généralement deux étapes principales : la détection de propositions d'actions au niveau des images fixes et l'association de ces propositions entre les images. De plus, ces méthodes utilisent un cadre de CNN à double flux pour traiter séparément les caractéristiques spatiales et temporelles. Dans cet article, nous proposons un réseau neuronal profond appelé Tube Convolutional Neural Network (T-CNN) pour la détection d'actions dans les vidéos. L'architecture proposée est un réseau unifié capable de reconnaître et de localiser des actions en se basant sur des caractéristiques de convolution 3D. Une vidéo est tout d'abord divisée en segments de longueur égale, puis pour chaque segment, un ensemble de propositions tubulaires est généré en utilisant des caractéristiques de réseau convolutif 3D (ConvNet). Enfin, les propositions tubulaires des différents segments sont liées ensemble en utilisant le flot réseau, et la détection spatio-temporelle des actions est effectuée à partir de ces propositions vidéo liées. Des expériences approfondies sur plusieurs jeux de données vidéo montrent que T-CNN offre une performance supérieure pour la classification et la localisation des actions dans les vidéos tronquées et non tronquées par rapport aux méthodes actuelles les plus avancées.