HyperAIHyperAI
il y a 2 mois

Réexamen de la séparation du premier plan et de l'arrière-plan dans la localisation temporelle d'actions faiblement supervisée : une approche basée sur le clustering

Qinying Liu; Zilei Wang; Shenghai Rong; Junjie Li; Yixin Zhang
Réexamen de la séparation du premier plan et de l'arrière-plan dans la localisation temporelle d'actions faiblement supervisée : une approche basée sur le clustering
Résumé

La localisation temporelle d'actions faiblement supervisée vise à localiser les instances d'actions dans des vidéos en utilisant uniquement des étiquettes d'actions au niveau de la vidéo. Les méthodes existantes adoptent principalement un pipeline de localisation par classification qui optimise la prédiction au niveau des segments grâce à une perte de classification vidéo. Cependant, cette formulation souffre de l'écart entre la classification et la détection, entraînant une séparation imprecise des segments avant-plan et arrière-plan (F\&B). Pour atténuer ce problème, nous proposons d'explorer la structure sous-jacente parmi les segments en recourant au regroupement non supervisé des segments, plutôt que de s'appuyer fortement sur la perte de classification vidéo. Plus précisément, nous proposons un nouvel algorithme de séparation F\&B basé sur le regroupement. Il comprend deux composants essentiels : un composant de regroupement de segments qui classe les segments en plusieurs clusters latents et un composant de classification de clusters qui classe ensuite chaque cluster comme avant-plan ou arrière-plan. Comme il n'existe pas d'étiquettes véritables pour former ces deux composants, nous introduisons un mécanisme d'autolabellisation unifié basé sur le transport optimal pour générer des étiquettes pseudo-haute qualité qui correspondent à plusieurs distributions a priori plausibles. Ceci garantit que les affectations de clusters aux segments peuvent être associées avec précision à leurs étiquettes F\&B, améliorant ainsi la séparation F\&B. Nous évaluons notre méthode sur trois benchmarks : THUMOS14, ActivityNet v1.2 et v1.3. Notre méthode obtient des performances prometteuses sur tous ces benchmarks tout en étant significativement plus légère que les méthodes précédentes. Le code est disponible à l'adresse suivante : https://github.com/Qinying-Liu/CASE

Réexamen de la séparation du premier plan et de l'arrière-plan dans la localisation temporelle d'actions faiblement supervisée : une approche basée sur le clustering | Articles de recherche récents | HyperAI