il y a 2 mois

MS-TCN : Réseau de convolution temporelle multi-étapes pour la segmentation d'actions

Yazan Abu Farha; Juergen Gall

Résumé

La localisation temporelle et la classification des segments d'action dans de longues vidéos non coupées sont d'un intérêt particulier pour de nombreuses applications telles que la surveillance et la robotique. Alors que les approches traditionnelles suivent une pipeline en deux étapes, consistant à générer des probabilités par image puis à les alimenter à des modèles temporels de haut niveau, les approches récentes utilisent des convolutions temporelles pour classifier directement les images de la vidéo. Dans cet article, nous introduisons une architecture multi-étapes pour la tâche de segmentation temporelle d'action. Chaque étape présente un ensemble de convolutions temporelles dilatées pour générer une prédiction initiale qui est ensuite raffinée par l'étape suivante. Cette architecture est entraînée en utilisant une combinaison d'une perte de classification et d'une perte de lissage proposée, qui pénalise les erreurs de sur-segmentation. Une évaluation extensive montre l'efficacité du modèle proposé dans la capture des dépendances à long terme et la reconnaissance des segments d'action. Notre modèle obtient des résultats de pointe sur trois jeux de données difficiles : 50Salads, Georgia Tech Egocentric Activities (GTEA) et le jeu de données Breakfast.