HyperAIHyperAI
il y a 11 jours

DCAN : Amélioration de la détection d’actions temporelles par agrégation contextuelle dual

Guo Chen, Yin-Dong Zheng, Limin Wang, Tong Lu
DCAN : Amélioration de la détection d’actions temporelles par agrégation contextuelle dual
Résumé

La détection temporelle d’actions vise à localiser les bornes des actions au sein d’une vidéo. Les méthodes actuelles basées sur le matching de bornes énumèrent et calculent toutes les correspondances possibles entre bornes afin de générer des propositions. Toutefois, ces approches négligent l’agrégation de contexte à longue portée dans la prédiction des bornes. Par ailleurs, en raison de la similarité sémantique entre les correspondances adjacentes, l’agrégation locale du contexte pour des correspondances générées de manière dense ne permet pas d’améliorer la richesse ni la discriminabilité sémantique. Dans cet article, nous proposons une méthode end-to-end de génération de propositions nommée Dual Context Aggregation Network (DCAN), qui agrège le contexte à deux niveaux — le niveau de borne et le niveau de proposition — afin de produire des propositions d’actions de haute qualité, améliorant ainsi les performances de la détection temporelle d’actions. Plus précisément, nous avons conçu une architecture Multi-Path Temporal Context Aggregation (MTCA) pour assurer une agrégation fluide du contexte au niveau des bornes et une évaluation précise des bornes. Pour l’évaluation des correspondances, nous avons développé une méthode Coarse-to-fine Matching (CFM) permettant d’agréger le contexte au niveau des propositions et de raffiner progressivement la carte de correspondance de manière grossière à fine. Nous avons mené des expériences étendues sur les jeux de données ActivityNet v1.3 et THUMOS-14. DCAN atteint une moyenne de mAP de 35,39 % sur ActivityNet v1.3 et une mAP de 54,14 % à IoU@0,5 sur THUMOS-14, démontrant ainsi la capacité de DCAN à générer des propositions de haute qualité et à atteindre des performances de pointe. Le code source est disponible à l’adresse suivante : https://github.com/cg1177/DCAN.

DCAN : Amélioration de la détection d’actions temporelles par agrégation contextuelle dual | Articles de recherche récents | HyperAI