Localisation temporelle d’actions faiblement supervisée avec suppression guidée par l’actionnalité des faux positifs
La localisation temporelle d’actions faiblement supervisée vise à localiser les bornes temporelles des instances d’actions dans des vidéos non tronquées à l’aide d’étiquettes au niveau de la vidéo et à leur attribuer la catégorie d’action correspondante. En général, ce problème est résolu par une approche en chaîne appelée « localisation par classification », qui identifie les instances d’actions en classifiant des fragments vidéo. Toutefois, comme cette méthode optimise une fonction objective de classification au niveau de la vidéo, les séquences d’activation générées souffrent fréquemment d’interférences provenant de scènes spécifiques à certaines classes, entraînant un grand nombre de faux positifs dans les résultats prédits. De nombreuses méthodes existantes traitent le fond comme une catégorie indépendante, forçant ainsi les modèles à apprendre à distinguer les fragments de fond. Toutefois, dans un cadre de supervision faible, l’information relative au fond est floue et incertaine, ce qui rend cette approche extrêmement difficile. Pour atténuer l’impact des faux positifs, nous proposons un nouveau cadre de suppression des faux positifs guidé par l’actionnalité. Notre méthode vise à supprimer les faux positifs provenant du fond sans introduire une catégorie explicite pour le fond. Premièrement, nous proposons une branche d’actionnalité par auto-entraînement, capable d’apprendre une actionnalité indépendante de la classe, en ignorant les étiquettes vidéo afin de minimiser les interférences provenant des scènes liées aux classes. Deuxièmement, nous introduisons un module de suppression des faux positifs, conçu pour identifier et réduire les fragments erronés. Enfin, nous proposons un module d’amélioration du premier plan, qui guide le modèle à mieux apprendre les régions pertinentes grâce à un mécanisme d’attention ainsi qu’à l’actionnalité indépendante de la classe. Nous menons des expériences étendues sur trois benchmarks (THUMOS14, ActivityNet1.2 et ActivityNet1.3). Les résultats démontrent l’efficacité de notre méthode pour réduire les faux positifs et atteindre une performance au niveau de l’état de l’art. Code : https://github.com/lizhilin-ustc/AFPS.