Modélisation des dépendances d’actions multi-étiquettes pour la localisation temporelle des actions

Les vidéos du monde réel contiennent de nombreuses actions complexes auxquelles sont associées des relations intrinsèques entre les classes d’actions. Dans ce travail, nous proposons une architecture basée sur l’attention pour modéliser ces relations entre actions dans le cadre de la localisation temporelle d’actions dans des vidéos non tronquées. Contrairement aux approches antérieures qui exploitent la co-occurrence d’actions au niveau de la vidéo, nous faisons la distinction entre les relations existant entre des actions se produisant au même instant et celles entre des actions se produisant à des instants différents (c’est-à-dire celles qui précèdent ou suivent l’autre). Nous définissons ces relations distinctes comme des dépendances d’actions. Nous proposons d’améliorer la performance de la localisation d’actions en modélisant ces dépendances d’actions à l’aide d’un nouveau bloc d’attention, appelé couche Multi-Label Action Dependency (MLAD). La couche MLAD se compose de deux branches : une branche de dépendance de co-occurrence et une branche de dépendance temporelle, respectivement dédiées à la modélisation des dépendances de co-occurrence et des dépendances temporelles entre actions. Nous observons que les métriques existantes utilisées pour la classification multi-étiquettes ne mesurent pas explicitement la qualité de la modélisation des dépendances d’actions ; nous proposons donc de nouvelles métriques prenant en compte à la fois les dépendances de co-occurrence et les dépendances temporelles entre les classes d’actions. À travers une évaluation empirique et une analyse approfondie, nous démontrons une amélioration significative par rapport aux méthodes de pointe sur des benchmarks de localisation d’actions multi-étiquettes (MultiTHUMOS et Charades), tant en termes de f-mAP que de notre métrique proposée.