HyperAIHyperAI
il y a 11 jours

SF-Net : Surveillance d'une seule trame pour la localisation temporelle d'actions

Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, Zheng Shou
SF-Net : Surveillance d'une seule trame pour la localisation temporelle d'actions
Résumé

Dans cet article, nous étudions une forme intermédiaire de supervision, à savoir la supervision par une seule image (single-frame supervision), pour la localisation temporelle des actions (Temporal Action Localization, TAL). Pour obtenir cette supervision, les annotateurs sont invités à identifier une seule image au sein de la fenêtre temporelle d'une action. Cette approche permet de réduire considérablement les coûts de main-d'œuvre par rapport à la supervision complète, qui nécessite l'annotation des frontières temporelles des actions. Contrairement à la supervision faible, qui ne fournit que des étiquettes au niveau de la vidéo, la supervision par une seule image introduit des signaux temporels supplémentaires tout en maintenant un faible coût d'annotation. Afin d'exploiter pleinement cette supervision par une seule image, nous proposons un système unifié appelé SF-Net. Premièrement, nous proposons de prédire un score d’action (actionness score) pour chaque trame vidéo. Associé à un score de catégorie classique, ce score d’action fournit des informations complètes sur la présence d’une action potentielle et facilite le raffinement des bornes temporelles lors de l’inférence. Deuxièmement, nous extrayons des trames pseudo-étiquetées d’action et de fond à partir des annotations par une seule image. Nous identifions les trames pseudo-étiquetées d’action en étendant de manière adaptative chaque trame annotée à ses trames voisines contextuelles, tandis que les trames pseudo-étiquetées de fond sont extraites à partir de toutes les trames non annotées présentes dans plusieurs vidéos. En combinant ces trames pseudo-étiquetées avec les trames étiquetées au vrai (ground-truth), nous entraînons ensuite le classificateur. Des expériences étendues sur les jeux de données THUMOS14, GTEA et BEOID montrent que SF-Net améliore significativement les méthodes actuellement les plus avancées basées sur une supervision faible, tant en termes de localisation des segments que de localisation des trames individuelles. Notamment, SF-Net atteint des performances comparables à celles de sa version entièrement supervisée, qui nécessite des annotations bien plus coûteuses en ressources. Le code est disponible à l’adresse suivante : https://github.com/Flowerfan/SF-Net.

SF-Net : Surveillance d'une seule trame pour la localisation temporelle d'actions | Articles de recherche récents | HyperAI