HyperAIHyperAI
il y a 17 jours

Affinement de la segmentation d’actions à l’aide de représentations vidéo hiérarchiques

{Dongheui Lee, Hyemin Ahn}
Affinement de la segmentation d’actions à l’aide de représentations vidéo hiérarchiques
Résumé

Dans cet article, nous proposons le modèle Hierarchical Action Segmentation Refiner (HASR), capable de raffiner les résultats de segmentation d’actions temporelles provenant de divers modèles en compréhension du contexte global d’une vidéo de manière hiérarchique. Lorsqu’un modèle principal (backbone) pour la segmentation d’actions estime la manière dont une vidéo donnée peut être segmentée, notre modèle extrait des représentations au niveau des segments à partir des caractéristiques au niveau des trames, puis extrait une représentation au niveau de la vidéo à partir des représentations au niveau des segments. À partir de ces représentations hiérarchiques, notre modèle peut faire référence au contexte global de toute la vidéo afin de prédire les corrections nécessaires pour les étiquettes de segments qui s’écartent du contexte. Le modèle HASR peut être intégré à divers modèles de segmentation d’actions (MS-TCN, SSTDA, ASRF) et améliore les performances des modèles de pointe sur trois jeux de données exigeants (GTEA, 50Salads et Breakfast). Par exemple, sur le jeu de données 50Salads, le score d’édition segmentaire passe de 67,9 % à 77,4 % (MS-TCN), de 75,8 % à 77,3 % (SSTDA), et de 79,3 % à 81,0 % (ASRF). En outre, notre modèle est capable de raffiner les résultats de segmentation provenant d’un modèle principal inconnu, non utilisé lors de l’entraînement de HASR. Cette capacité de généralisation en fait un outil efficace pour améliorer les approches existantes en segmentation d’actions temporelles. Le code source est disponible à l’adresse suivante : https://github.com/cotton-ahn/HASR_iccv2021.