HyperAIHyperAI
il y a 17 jours

ASQuery : un modèle basé sur les requêtes pour la segmentation d'actions

{Zhao Jian, Xing Junliang, Li Jianshu, Wang Zhecan, Li Liang, Li Zhou, Zheng Wang, Nie Lei, Jin Lei, Gan Ziliang}
Résumé

Pour la tâche de segmentation d’actions temporelles, les travaux existants traitent généralement ce problème comme une classification par trame. Dans cet article, nous proposons un modèle simple mais efficace, nommé ASQuery, qui apprend une représentation centrale pour chaque catégorie d’action, transformant ainsi le problème de classification en un calcul de similarité entre des requêtes spécifiques à chaque catégorie et les caractéristiques des trames. Ces représentations centrales sont générées de manière dynamique grâce à notre module décodeur Transformer, ce qui leur confère une perception plus flexible et plus complète de l’ensemble de la vidéo. En outre, nous introduisons pour la première fois une requête de frontière afin de raffiner les résultats de segmentation, aidant à atténuer le problème pénible de la sur-segmentation. ASQuery obtient des performances supérieures par rapport aux modèles de pointe, avec des améliorations respectives de 0,9 % et 4,1 % en termes de métriques moyennes sur deux jeux de données publics de segmentation d’actions, à savoir Breakfast et Assembly101. Le code source est disponible à l’adresse suivante : https://github.com/zlngan/ASQuery.