Réseaux de Segments Temporels pour la Reconnaissance d'Actions dans les Vidéos

Les réseaux de neurones convolutifs profonds ont connu un grand succès dans la reconnaissance d'images. Cependant, pour la reconnaissance d'actions dans les vidéos, leur avantage par rapport aux méthodes traditionnelles n'est pas aussi évident. Nous présentons un cadre général et flexible au niveau des vidéos pour l'apprentissage de modèles d'action. Cette méthode, appelée réseau de segments temporels (Temporal Segment Network, TSN), vise à modéliser les structures temporelles à long terme grâce à un nouveau module d'échantillonnage et d'agrégation basé sur des segments. Ce design unique permet à notre TSN d'apprendre efficacement des modèles d'action en utilisant l'intégralité des vidéos d'action. Les modèles appris peuvent être facilement adaptés pour la reconnaissance d'actions dans les vidéos tronquées et non tronquées, respectivement, grâce à une mise en commun moyenne simple et une intégration multi-échelle de fenêtres temporelles. Nous étudions également une série de bonnes pratiques pour l'instantiation du cadre TSN en présence de données d'entraînement limitées. Notre approche obtient des performances de pointe sur quatre benchmarks difficiles de reconnaissance d'actions : HMDB51 (71,0 %), UCF101 (94,9 %), THUMOS14 (80,1 %) et ActivityNet v1.2 (89,6 %). En utilisant la différence RGB proposée pour les modèles de mouvement, notre méthode peut encore atteindre une précision compétitive sur UCF101 (91,0 %) tout en fonctionnant à 340 images par seconde (FPS). De plus, basés sur les réseaux de segments temporels, nous avons remporté le classement vidéo lors du défi ActivityNet 2016 parmi 24 équipes, ce qui démontre l'efficacité du TSN et des bonnes pratiques proposées.