Synthétiseur Robuste de Caractéristiques Régionales pour la Détection d'Objets en Zero-Shot

La détection d'objets à zéro coup d'œil vise à intégrer des vecteurs sémantiques de classe afin de réaliser la détection de classes (vues et) non vues dans une image de test non contrainte. Dans cette étude, nous mettons en lumière les défis fondamentaux de ce domaine de recherche : comment synthétiser des caractéristiques régionales robustes (pour les objets non vus) qui soient aussi diverses au sein des classes et séparables entre les classes que les échantillons réels, afin que des détecteurs d'objets non vus puissants puissent être formés à partir de ces caractéristiques. Pour relever ces défis, nous avons élaboré un nouveau cadre de détection d'objets à zéro coup d'œil comprenant un composant de Divergence Sémantique Intra-classe et un composant de Préservation de la Structure Inter-classe. Le premier est utilisé pour réaliser une correspondance un-à-plusieurs afin d'obtenir des caractéristiques visuelles diverses à partir de chaque vecteur sémantique de classe, évitant ainsi la mauvaise classification des objets réels non vus comme des arrière-plans d'image. Le second est utilisé pour éviter que les caractéristiques synthétisées ne soient trop dispersées, ce qui pourrait confondre la relation inter-classe et celle entre l'avant-plan et l'arrière-plan. Pour démontrer l'efficacité de notre approche proposée, des expériences exhaustives ont été menées sur les jeux de données PASCAL VOC, COCO et DIOR. Il convient de noter que notre approche atteint une nouvelle performance state-of-the-art sur PASCAL VOC et COCO, et qu'elle constitue la première étude à mettre en œuvre la détection d'objets à zéro coup d'œil dans les images radar.Note: "state-of-the-art" is commonly used in French academic and technical writing without translation, as it has become a widely accepted term in these fields.