Résolution des confusions sémantiques pour une détection améliorée en zero-shot

La détection à zéro coup d'œil (Zero-Shot Detection, ZSD) est une tâche complexe visant à reconnaître et localiser simultanément des objets, même lorsque notre modèle n'a pas été formé avec des échantillons visuels de certaines classes cibles (« non vues »). Récemment, les méthodes utilisant des modèles génératifs comme les GANs (Generative Adversarial Networks) ont montré certains des meilleurs résultats, où des échantillons de classes non vues sont générés en fonction de leurs sémantiques par un GAN formé sur des données de classes vues, permettant ainsi aux détecteurs d'objets standards de reconnaître des objets non vus. Cependant, le problème de la confusion sémantique persiste, où le modèle peine parfois à distinguer entre des classes sémantiquement similaires. Dans ce travail, nous proposons de former un modèle génératif intégrant une perte triplet qui prend en compte le degré de dissimilarité entre les classes et le reflète dans les échantillons générés. De plus, une perte de cohérence cyclique est également appliquée pour garantir que les échantillons visuels générés d'une classe correspondent étroitement à leurs propres sémantiques. Des expériences approfondies sur deux jeux de données ZSD de référence - MSCOCO et PASCAL-VOC - montrent des gains significatifs par rapport aux méthodes ZSD actuelles, réduisant la confusion sémantique et améliorant la détection pour les classes non vues.