HyperAIHyperAI
il y a 16 jours

MS-TCN++ : Réseau de convolution temporelle à plusieurs étapes pour la segmentation d’actions

Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall
MS-TCN++ : Réseau de convolution temporelle à plusieurs étapes pour la segmentation d’actions
Résumé

Grâce au succès du deep learning dans la classification de courtes séquences vidéo tronquées, une attention croissante est portée sur la segmentation temporelle et la classification des activités dans des vidéos longues non tronquées. Les approches les plus récentes pour la segmentation d’actions exploitent plusieurs couches de convolution temporelle et de pooling temporel. Bien que ces méthodes soient capables de capturer efficacement les dépendances temporelles, leurs prédictions souffrent souvent d’erreurs de sur-segmentation. Dans cet article, nous proposons une architecture à plusieurs étapes pour la tâche de segmentation temporelle d’actions, qui surmonte les limites des approches précédentes. La première étape génère une prédiction initiale, qui est ensuite affinée par les étapes suivantes. À chaque étape, nous empilons plusieurs couches de convolution temporelle dilatée, permettant une large champ réceptif avec un nombre réduit de paramètres. Bien que cette architecture fonctionne déjà de manière satisfaisante, les couches inférieures restent limitées par un champ réceptif trop petit. Pour remédier à cette limitation, nous introduisons une couche doublement dilatée, combinant à la fois des champs réceptifs grands et petits. Nous découplons également la conception de la première étape de celle des étapes d’affinement, afin de répondre aux besoins spécifiques de chacune. Des évaluations étendues démontrent l’efficacité du modèle proposé dans la capture des dépendances à longue portée et la reconnaissance des segments d’actions. Nos modèles atteignent des résultats de pointe sur trois jeux de données : 50Salads, Georgia Tech Egocentric Activities (GTEA) et le jeu de données Breakfast.

MS-TCN++ : Réseau de convolution temporelle à plusieurs étapes pour la segmentation d’actions | Articles de recherche récents | HyperAI