HyperAIHyperAI
il y a 2 mois

3C-Net : Perte de comptage et de centrage de catégorie pour la localisation d'actions faiblement supervisée

Sanath Narayan; Hisham Cholakkal; Fahad Shahbaz Khan; Ling Shao
3C-Net : Perte de comptage et de centrage de catégorie pour la localisation d'actions faiblement supervisée
Résumé

La localisation temporelle d'actions est un problème complexe en vision par ordinateur avec de nombreuses applications dans le monde réel. La plupart des méthodes existantes nécessitent une supervision fastidieuse au niveau des images pour entraîner les modèles de localisation d'actions. Dans cette étude, nous proposons un cadre appelé 3C-Net, qui ne requiert qu'une supervision au niveau des vidéos (supervision faible) sous la forme de labels de catégories d'actions et du nombre correspondant. Nous introduisons une nouvelle formulation pour apprendre des caractéristiques d'actions discriminantes avec des capacités de localisation améliorées. Notre formulation conjointe comporte trois termes : un terme de classification pour garantir la séparabilité des caractéristiques d'actions apprises, un terme de perte multi-étiquettes adapté pour renforcer la discriminabilité des caractéristiques d'actions et un terme de perte de comptage pour délimiter les séquences d'actions adjacentes, ce qui conduit à une meilleure localisation. Des expériences exhaustives sont menées sur deux benchmarks difficiles : THUMOS14 et ActivityNet 1.2. Notre approche établit un nouveau standard en matière de localisation temporelle d'actions faiblement supervisée sur les deux ensembles de données. Sur l'ensemble de données THUMOS14, la méthode proposée réalise un gain absolu de 4,6 % en termes de précision moyenne (mAP), par rapport à l'état de l'art. Le code source est disponible à l'adresse suivante : https://github.com/naraysa/3c-net.