HyperAIHyperAI
il y a 17 jours

BoxMask : Repenser la supervision par boîte englobante pour la détection d'objets dans les vidéos

Khurram Azeem Hashmi, Alain Pagani, Didier Stricker, Muhammamd Zeshan Afzal
BoxMask : Repenser la supervision par boîte englobante pour la détection d'objets dans les vidéos
Résumé

Nous présentons une nouvelle approche simple mais efficace pour la détection d'objets dans les vidéos. Nous observons que les travaux antérieurs s'appuient sur une agrégation de caractéristiques au niveau des instances, ce qui néglige immédiatement les représentations raffinées au niveau des pixels, entraînant ainsi une confusion entre des objets présentant des caractéristiques d'apparence ou de mouvement similaires. Pour remédier à cette limitation, nous proposons BoxMask, une méthode qui apprend efficacement des représentations discriminatives en intégrant des informations pixel-level sensibles à la classe. Nous considérons simplement les annotations de boîtes englobantes comme un masque grossier pour chaque objet, afin de superviser notre approche. Le module proposé peut être facilement intégré à tout détecteur basé sur des régions afin d'améliorer sa performance. Des expériences étendues sur les jeux de données ImageNet VID et EPIC KITCHENS démontrent une amélioration constante et significative lorsque notre module BoxMask est intégré à de nombreuses méthodes récentes de pointe.