HyperAIHyperAI
il y a 2 mois

ACSNet : Réseau de Séparation Action-Contexte pour la Localisation Temporelle d'Actions Faiblement Supervisée

Ziyi Liu; Le Wang; Qilin Zhang; Wei Tang; Junsong Yuan; Nanning Zheng; Gang Hua
ACSNet : Réseau de Séparation Action-Contexte pour la Localisation Temporelle d'Actions Faiblement Supervisée
Résumé

L'objectif de la localisation temporelle d'actions faiblement supervisée (WS-TAL) est de localiser toutes les instances d'action dans une vidéo non tronquée avec une supervision uniquement au niveau de la vidéo. En raison du manque d'annotations au niveau des images pendant l'entraînement, les méthodes actuelles de WS-TAL s'appuient sur des mécanismes d'attention pour localiser les extraits ou les images de premier plan qui contribuent à la tâche de classification au niveau de la vidéo. Cette stratégie confond souvent le contexte avec l'action réelle dans le résultat de localisation. La séparation entre action et contexte est un problème central pour une précision accrue en WS-TAL, mais il est très difficile et a été largement négligé dans la littérature. Dans cet article, nous introduisons un réseau de séparation action-contexte (ACSNet) qui prend explicitement en compte le contexte pour une localisation précise des actions. Il se compose de deux branches (à savoir, la branche Premier Plan-Arrière Plan et la branche Action-Contexte). La branche Premier Plan-Arrière Plan distingue d'abord le premier plan de l'arrière-plan dans toute la vidéo, tandis que la branche Action-Contexte sépare davantage le premier plan en action et contexte. Nous associons des extraits vidéo à deux composants latents (à savoir, un composant positif et un composant négatif), et leurs différentes combinaisons peuvent caractériser efficacement le premier plan, l'action et le contexte. De plus, nous introduisons des étiquettes étendues avec des catégories contextuelles auxiliaires pour faciliter l'apprentissage de la séparation action-contexte. Les expériences menées sur les jeux de données THUMOS14 et ActivityNet v1.2/v1.3 démontrent que l'ACSNet surpasse considérablement les méthodes existantes d'état de l'art en WS-TAL.Note : - "视频片段" a été traduit par "extraits vidéo".- "正分量" a été traduit par "composant positif".- "负分量" a été traduit par "composant négatif".

ACSNet : Réseau de Séparation Action-Contexte pour la Localisation Temporelle d'Actions Faiblement Supervisée | Articles de recherche récents | HyperAI