Cascade Apprenable pour la Détection d'Objets en Zero-Shot

La détection à zéro coup d'œil (Zero-Shot Detection, ZSD) est cruciale pour la détection d'objets à grande échelle, visant à localiser et reconnaître simultanément des objets inconnus. Plusieurs défis restent à relever en ce qui concerne la ZSD, notamment la réduction de l'ambiguïté entre le fond et les objets inconnus, ainsi que l'amélioration de l'alignement entre les concepts visuels et sémantiques. Dans cette étude, nous proposons un cadre novateur appelé Cascade Apprenante au Fond (Background Learnable Cascade, BLC) pour améliorer les performances de la ZSD. Les principales contributions du BLC sont les suivantes : (i) nous proposons une structure en cascade multi-étapes nommée Cascade Semantic R-CNN afin de raffiner progressivement l'alignement entre les aspects visuels et sémantiques de la ZSD ; (ii) nous développons une structure de flux d'information sémantique et l'intégrons directement entre chaque étape de la Cascade Semantic R-CNN pour améliorer encore davantage l'apprentissage des caractéristiques sémantiques ; (iii) nous proposons un réseau de proposition de régions apprenable au fond (Background Learnable Region Proposal Network, BLRPN) pour apprendre un vecteur lexical approprié pour la classe de fond et utiliser ce vecteur appris dans la Cascade Semantic R-CNN. Cette conception rend le « fond apprenable » et réduit la confusion entre le fond et les classes inconnues. Nos expériences approfondies montrent que le BLC obtient des améliorations significatives des performances sur MS-COCO par rapport aux méthodes les plus avancées actuellement disponibles.