HyperAIHyperAI
il y a 11 jours

Amélioration des propositions d’actions temporelles grâce au contexte hiérarchique

{Shenghai Rong, Zilei Wang, Qinying Liu}
Résumé

La proposition d’actions temporelles (TAP) vise à générer des candidats précis d’instances d’actions dans une vidéo non tronquée. Il a été démontré que les contextes jouent un rôle fondamental pour cette tâche. Dans cet article, nous proposons un nouveau réseau hiérarchique de contexte (HCN) afin d’explorer plus en profondeur les contextes au niveau des snippets et au niveau des propositions, utilisés respectivement pour améliorer les représentations des snippets et des propositions. Premièrement, nous montrons que les différentes échelles de contextes au niveau des snippets n’ont pas toutes la même importance pour toutes les instances d’actions. À cet effet, nous intégrons un mécanisme de porte innovant dans la structure U-Net afin de capturer des contextes au niveau des snippets adaptés au contenu. Deuxièmement, pour exploiter efficacement les contextes au niveau des propositions, nous proposons un modèle d’attention auto-spécifique à haute efficacité. En empilant plusieurs modèles d’attention, nous pouvons explorer en profondeur les contextes au niveau des propositions sur une large échelle. Enfin, pour tirer parti des deux niveaux de contexte, nous équipons HCN de trois branches permettant d’évaluer les propositions selon des perspectives locales à globales. Nos expériences sur les jeux de données ActivityNet-1.3 et THUMOS14 montrent que HCN surpasse significativement les méthodes précédentes de TAP. En outre, des expériences complémentaires démontrent que notre méthode peut considérablement améliorer les performances de détection d’actions de l’état de l’art lorsqu’elle est combinée avec des classificateurs d’actions existants.

Amélioration des propositions d’actions temporelles grâce au contexte hiérarchique | Articles de recherche récents | HyperAI