HyperAIHyperAI
il y a 11 jours

Réseau de suppression du contexte pour la localisation temporelle d’actions faiblement supervisée

Pilhyeon Lee, Youngjung Uh, Hyeran Byun
Réseau de suppression du contexte pour la localisation temporelle d’actions faiblement supervisée
Résumé

La localisation temporelle d’actions sous supervision faible constitue un problème très difficile, car des étiquettes par image (frame-wise) ne sont pas fournies durant l’étape d’entraînement, le seul indice étant les étiquettes au niveau vidéo : indiquer si chaque vidéo contient des images portant sur une action d’intérêt. Les méthodes précédentes agrégent les scores de classe au niveau des images afin de produire une prédiction au niveau vidéo, et apprennent à partir des étiquettes d’action au niveau vidéo. Ce cadre ne modélise pas pleinement le problème, car les images de fond sont obligées d’être mal classées comme des classes d’action afin de prédire correctement les étiquettes au niveau vidéo. Dans cet article, nous proposons le Background Suppression Network (BaS-Net), un modèle introduisant une classe auxiliaire pour le fond, et reposant sur une architecture à deux branches partageant les poids, accompagnée d’une stratégie d’entraînement asymétrique. Cette approche permet à BaS-Net de supprimer les activations provenant des images de fond, améliorant ainsi la performance de localisation. Des expériences étendues démontrent l’efficacité de BaS-Net et son avantage par rapport aux méthodes de pointe sur les benchmarks les plus populaires : THUMOS’14 et ActivityNet. Le code source et le modèle entraîné sont disponibles à l’adresse suivante : https://github.com/Pilhyeon/BaSNet-pytorch.

Réseau de suppression du contexte pour la localisation temporelle d’actions faiblement supervisée | Articles de recherche récents | HyperAI