HyperAIHyperAI
il y a 16 jours

Combien de contexte temporel à long terme est nécessaire pour la segmentation d’actions ?

Emad Bahrami, Gianpiero Francesca, Juergen Gall
Combien de contexte temporel à long terme est nécessaire pour la segmentation d’actions ?
Résumé

La modélisation du contexte à long terme dans les vidéos est essentielle pour de nombreuses tâches fines, telles que la segmentation d’actions temporelles. Une question intéressante encore ouverte est la quantité de contexte temporel à long terme nécessaire pour atteindre des performances optimales. Bien que les transformateurs soient capables de modéliser le contexte temporel à long terme dans une vidéo, cette approche devient computablement prohibitif pour des vidéos longues. Les travaux récents sur la segmentation d’actions temporelles combinent donc des réseaux de convolution temporelle avec des mécanismes d’attention auto-attentive calculés uniquement sur une fenêtre temporelle locale. Bien que ces approches obtiennent de bons résultats, leurs performances sont limitées par leur incapacité à capturer le contexte complet d’une vidéo. Dans ce travail, nous cherchons à répondre à la question de la quantité de contexte temporel à long terme requise pour la segmentation d’actions temporelles en introduisant un modèle basé sur les transformateurs qui exploite une attention éparse afin de capturer le contexte complet d’une vidéo. Nous comparons notre modèle avec l’état de l’art actuel sur trois jeux de données dédiés à la segmentation d’actions temporelles : 50Salads, Breakfast et Assembly101. Nos expériences montrent qu’il est nécessaire de modéliser le contexte complet d’une vidéo pour atteindre les meilleures performances dans la segmentation d’actions temporelles.