Synthèse de l'invisible pour la détection d'objets en zero-shot

Les approches actuelles de détection à zéro coup d'œil projettent les caractéristiques visuelles dans le domaine sémantique pour les objets connus, dans l'espoir de mapper les objets inconnus à leurs sémantiques correspondantes lors de l'inférence. Cependant, comme les objets inconnus ne sont jamais visualisés pendant l'entraînement, le modèle de détection est biaisé en faveur du contenu connu, ce qui entraîne une étiquetage des objets inconnus comme arrière-plan ou comme une classe connue. Dans cette étude, nous proposons de synthétiser des caractéristiques visuelles pour les classes inconnues, afin que le modèle apprenne à reconnaître à la fois les objets connus et inconnus dans le domaine visuel. Par conséquent, le principal défi réside dans la façon de synthétiser avec précision des objets inconnus en utilisant uniquement leurs sémantiques de classe ? Pour atteindre cet objectif ambitieux, nous proposons un nouveau modèle génératif qui utilise les sémantiques de classe non seulement pour générer les caractéristiques mais aussi pour les séparer de manière discriminante. De plus, en utilisant un modèle unifié, nous nous assurons que les caractéristiques synthétisées présentent une grande diversité représentative des différences intra-classes et d'une précision variable de localisation dans les boîtes englobantes détectées. Nous testons notre approche sur trois benchmarks de détection d'objets : PASCAL VOC, MSCOCO et ILSVRC (detection), dans des configurations conventionnelles et généralisées, montrant des gains impressionnants par rapport aux méthodes actuelles de pointe. Nos codes sont disponibles sur https://github.com/nasir6/zero_shot_detection.