HyperAIHyperAI
il y a 12 jours

Réseaux résiduels déformables temporels pour la segmentation d'actions dans les vidéos

{Peng Lei, Sinisa Todorovic}
Réseaux résiduels déformables temporels pour la segmentation d'actions dans les vidéos
Résumé

Ce papier traite de la segmentation temporelle des actions humaines dans les vidéos. Nous proposons un nouveau modèle, appelé réseau résiduel déformable temporel (TDRN), conçu pour analyser des intervalles vidéo à plusieurs échelles temporelles afin d’étiqueter les cadres vidéo. Notre TDRN calcule deux flux temporels parallèles : i) un flux résiduel qui analyse l’information vidéo à sa résolution temporelle complète, et ii) un flux de pooling/dépooling qui capte les informations vidéo à longue portée à différentes échelles. Le premier facilite la segmentation d’actions à petite échelle, fine et locale, tandis que le second utilise un contexte multiscale pour améliorer la précision de la classification des cadres. Ces deux flux sont calculés à l’aide d’une série de modules résiduels temporels utilisant des convolutions déformables, puis fusionnés via des résidus temporels à la résolution complète de la vidéo. Évalué sur les jeux de données University of Dundee 50 Salads, Georgia Tech Egocentric Activities et JHU-ISI Gesture and Skill Assessment Working Set, le TDRN dépasse l’état de l’art en termes de précision de segmentation par cadre, de score d’édition segmentale et de score F1 d’intersection segmentale.

Réseaux résiduels déformables temporels pour la segmentation d'actions dans les vidéos | Articles de recherche récents | HyperAI