HyperAIHyperAI

Command Palette

Search for a command to run...

D2-Net : Localisation d’actions faiblement supervisée via des embeddings discriminatifs et des activations débruitées

Sanath Narayan Hisham Cholakkal Munawar Hayat Fahad Shahbaz Khan Ming-Hsuan Yang Ling Shao

Résumé

Ce travail propose un cadre de localisation temporelle d’actions faiblement supervisé, appelé D2-Net, visant à localiser temporellement les actions à l’aide d’une supervision au niveau de la vidéo. Notre contribution principale réside dans la proposition d’une nouvelle formulation de perte, qui améliore simultanément la discriminabilité des embeddings latents et la robustesse des activations temporelles de classe par rapport au bruit entre avant-plan et arrière-plan provoqué par la supervision faible. La formulation proposée intègre deux termes de perte : un terme discriminant et un terme débruitant, afin d’améliorer la localisation temporelle des actions. Le terme discriminant combine une perte de classification et exploite un mécanisme d’attention haut-bas pour renforcer la séparabilité des embeddings latents d’avant-plan et d’arrière-plan. Le terme débruitant traite explicitement le bruit entre avant-plan et arrière-plan dans les activations de classe en maximisant simultanément l’information mutuelle intra-videos et inter-videos grâce à un mécanisme d’attention bas-haut. En conséquence, les activations dans les régions d’avant-plan sont renforcées tandis que celles des régions d’arrière-plan sont supprimées, conduisant à des prédictions plus robustes. Des expériences approfondies ont été menées sur plusieurs benchmarks, notamment THUMOS14 et ActivityNet1.2. Le modèle D2-Net obtient de meilleurs résultats par rapport aux méthodes existantes sur toutes les bases de données, avec des gains atteignant jusqu’à 2,3 % en mAP à IoU=0,5 sur THUMOS14. Le code source est disponible à l’adresse suivante : https://github.com/naraysa/D2-Net


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp