HyperAIHyperAI
il y a 11 jours

PointTAD : Détection temporelle d’actions multi-étiquettes avec des points d’interrogation apprenables

Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang
PointTAD : Détection temporelle d’actions multi-étiquettes avec des points d’interrogation apprenables
Résumé

La détection temporelle d’actions traditionnelle (TAD) traite généralement des vidéos non-tronquées comportant un petit nombre d’instances d’actions issues d’une seule étiquette (par exemple, ActivityNet, THUMOS). Toutefois, ce cadre peut s’avérer peu réaliste, car différentes catégories d’actions coexistent fréquemment dans la pratique. Dans ce papier, nous nous concentrons sur la tâche de détection temporelle d’actions à plusieurs étiquettes, dont l’objectif est de localiser toutes les instances d’actions présentes dans une vidéo non-tronquée à plusieurs étiquettes. La TAD à plusieurs étiquettes est plus complexe, car elle exige une discrimination fine entre les classes au sein d’une même vidéo ainsi qu’une localisation précise des instances co-occurrentes. Pour atténuer ce défi, nous étendons le paradigme de détection basé sur des requêtes creuses issu de la TAD traditionnelle et proposons le cadre PointTAD pour la TAD à plusieurs étiquettes. Plus précisément, PointTAD introduit un petit ensemble de points de requête apprenables afin de représenter les cadres clés de chaque instance d’action. Cette représentation basée sur des points offre un mécanisme souple pour localiser les cadres discriminatifs aux frontières ainsi que les cadres importants à l’intérieur de l’action. En outre, nous réalisons le décodage des actions via un module d’interaction multi-niveaux, permettant de capturer à la fois les sémantiques au niveau des points et celles au niveau des instances. Enfin, PointTAD repose sur un cadre entièrement entraînable en bout à bout, fondé uniquement sur une entrée RGB, ce qui facilite son déploiement. Nous évaluons notre méthode sur deux benchmarks populaires et introduisons une nouvelle métrique, la detection-mAP, adaptée à la TAD à plusieurs étiquettes. Notre modèle surpassent largement toutes les méthodes précédentes selon la métrique detection-mAP, tout en obtenant également de bons résultats selon la métrique segmentation-mAP. Le code est disponible à l’adresse suivante : https://github.com/MCG-NJU/PointTAD.

PointTAD : Détection temporelle d’actions multi-étiquettes avec des points d’interrogation apprenables | Articles de recherche récents | HyperAI