HyperAIHyperAI
il y a 11 jours

DETR doubles pour la détection temporelle d'actions multi-étiquettes

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang
DETR doubles pour la détection temporelle d'actions multi-étiquettes
Résumé

La détection d’actions temporelles (TAD) vise à identifier les bornes temporelles et la catégorie correspondante d’actions au sein de vidéos non coupées. Inspirés par le succès de DETR dans la détection d’objets, plusieurs méthodes ont adapté le cadre basé sur les requêtes à la tâche de TAD. Toutefois, ces approches se sont principalement inspirées de DETR pour prédire les actions au niveau des instances (c’est-à-dire identifier chaque action par son point central), ce qui conduit à une localisation des bornes sous-optimale. Pour résoudre ce problème, nous proposons un nouveau cadre de TAD basé sur les requêtes à deux niveaux, nommé DualDETR, permettant de détecter les actions à la fois au niveau des instances et au niveau des bornes. Le décodage à différents niveaux exige des informations sémantiques de granularité différente ; nous introduisons donc une structure de décodage à deux branches. Cette structure établit des processus de décodage distincts pour chaque niveau, facilitant ainsi la capture explicite des indices temporels et des informations sémantiques propres à chaque niveau. Par ailleurs, nous proposons une stratégie d’initialisation conjointe des requêtes pour aligner les requêtes provenant des deux niveaux. Plus précisément, nous utilisons les propositions d’encodeur pour établir une correspondance un-à-un entre les requêtes de chaque niveau. Ensuite, les requêtes appariées sont initialisées à partir des priorités de position et de contenu issues de la proposition d’action correspondante. Ces requêtes alignées à deux niveaux peuvent ainsi affiner la proposition appariée en exploitant des indices complémentaires au cours du décodage ultérieur. Nous évaluons DualDETR sur trois benchmarks exigeants de TAD à plusieurs étiquettes. Les résultats expérimentaux démontrent la supériorité de DualDETR par rapport aux méthodes de l’état de l’art existantes, avec une amélioration significative en termes de det-mAP et des résultats remarquables en termes de seg-mAP.

DETR doubles pour la détection temporelle d'actions multi-étiquettes | Articles de recherche récents | HyperAI