Command Palette
Search for a command to run...
Réseaux de segments temporels pour la reconnaissance d'actions dans les vidéos
Réseaux de segments temporels pour la reconnaissance d'actions dans les vidéos
Résumé
Les réseaux convolutionnels profonds ont connu un grand succès dans la reconnaissance d’images. Toutefois, dans le domaine de la reconnaissance d’actions dans les vidéos, leur avantage par rapport aux méthodes traditionnelles n’est pas aussi évident. Nous proposons un cadre général et flexible pour l’apprentissage de modèles d’actions à partir de vidéos, basé au niveau de la vidéo. Cette méthode, appelée Temporal Segment Network (TSN), vise à modéliser les structures temporelles à longue portée grâce à un nouveau module d’échantillonnage et d’agrégation basé sur des segments. Ce design original permet à notre TSN d’apprendre efficacement des modèles d’actions en exploitant l’intégralité des vidéos d’actions. Les modèles appris peuvent être facilement adaptés à la reconnaissance d’actions dans des vidéos tronquées ou non tronquées, respectivement, grâce à une simple moyenne par agrégation et une intégration multi-échelle par fenêtres temporelles. Nous étudions également une série de bonnes pratiques pour instancier le cadre TSN lorsque les échantillons d’entraînement sont limités. Notre approche atteint des performances de pointe sur quatre défis réputés en reconnaissance d’actions : HMDB51 (71,0 %), UCF101 (94,9 %), THUMOS14 (80,1 %) et ActivityNet v1.2 (89,6 %). En utilisant la différence RGB proposée pour modéliser le mouvement, notre méthode parvient encore à atteindre une précision compétitive sur UCF101 (91,0 %), tout en fonctionnant à 340 FPS. En outre, basés sur les réseaux à segments temporels, nous avons remporté le track de classification vidéo au défi ActivityNet 2016 parmi 24 équipes, ce qui démontre l’efficacité de la TSN ainsi que des bonnes pratiques proposées.