D2-Net : Localisation d’actions faiblement supervisée via des embeddings discriminatifs et des activations débruitées

Ce travail propose un cadre de localisation temporelle d’actions faiblement supervisé, appelé D2-Net, visant à localiser temporellement les actions à l’aide d’une supervision au niveau de la vidéo. Notre contribution principale réside dans la proposition d’une nouvelle formulation de perte, qui améliore simultanément la discriminabilité des embeddings latents et la robustesse des activations temporelles de classe par rapport au bruit entre avant-plan et arrière-plan provoqué par la supervision faible. La formulation proposée intègre deux termes de perte : un terme discriminant et un terme débruitant, afin d’améliorer la localisation temporelle des actions. Le terme discriminant combine une perte de classification et exploite un mécanisme d’attention haut-bas pour renforcer la séparabilité des embeddings latents d’avant-plan et d’arrière-plan. Le terme débruitant traite explicitement le bruit entre avant-plan et arrière-plan dans les activations de classe en maximisant simultanément l’information mutuelle intra-videos et inter-videos grâce à un mécanisme d’attention bas-haut. En conséquence, les activations dans les régions d’avant-plan sont renforcées tandis que celles des régions d’arrière-plan sont supprimées, conduisant à des prédictions plus robustes. Des expériences approfondies ont été menées sur plusieurs benchmarks, notamment THUMOS14 et ActivityNet1.2. Le modèle D2-Net obtient de meilleurs résultats par rapport aux méthodes existantes sur toutes les bases de données, avec des gains atteignant jusqu’à 2,3 % en mAP à IoU=0,5 sur THUMOS14. Le code source est disponible à l’adresse suivante : https://github.com/naraysa/D2-Net