Découverte d'objets faiblement supervisée par des réseaux génératifs adverses et de classement

Les réseaux de neurones génératifs adverses profonds (GAN) ont récemment montré leur potentiel pour diverses applications en vision par ordinateur, telles que l'édition d'images, la synthèse d'images haute résolution, la génération de vidéos, etc. Ces réseaux et les schémas d'apprentissage associés peuvent gérer diverses cartographies d'espace visuel. Nous abordons les GAN avec une nouvelle méthode d'entraînement et un objectif d'apprentissage innovant, afin de découvrir plusieurs instances d'objets dans trois cas : 1) synthétiser une image d'un objet spécifique au sein d'une scène encombrée ; 2) localiser différentes catégories dans des images pour la détection d'objets faiblement supervisée ; et 3) améliorer la découverte d'objets dans les pipelines de détection d'objets. Un avantage crucial de notre méthode est qu'elle apprend une nouvelle métrique de similarité profonde, permettant de distinguer plusieurs objets dans une seule image. Nous démontrons que le réseau peut agir comme un encodeur-décodeur générant des parties d'une image contenant un objet, ou comme un CNN profond modifié pour représenter des images destinées à la détection d'objets dans des schémas supervisés et faiblement supervisés. Notre GAN de classement offre une nouvelle approche pour rechercher des motifs spécifiques aux objets dans les images. Nous avons mené des expériences pour différents scénarios et démontré les performances de la méthode pour la synthèse d'objets et la détection et classification faiblement supervisée des objets en utilisant les jeux de données MS-COCO et PASCAL VOC.