FSCE : Détection d'objets en few-shot par encodage contrastif des propositions

Des intérêts émergents ont porté à reconnaître des objets précédemment inconnus avec très peu d'exemples d'entraînement, une approche connue sous le nom de détection d'objets en quelques exemples (Few-Shot Object Detection, FSOD). Des recherches récentes montrent que l'embedding de bonnes caractéristiques est la clé pour obtenir de bonnes performances en apprentissage en quelques exemples. Nous observons que les propositions d'objets avec différents scores d'Intersection sur Union (Intersection-over-Union, IoU) sont analogues à l'augmentation intra-image utilisée dans les approches contrastives. En exploitant cette analogie, nous intégrons l'apprentissage supervisé contrastif pour obtenir des représentations d'objets plus robustes dans le cadre de la détection d'objets en quelques exemples (FSOD).Nous présentons la détection d'objets en quelques exemples par encodage contrastif des propositions (Few-Shot object detection via Contrastive proposals Encoding, FSCE), une approche simple mais efficace pour apprendre des encodages de propositions d'objets sensibles au contraste qui facilitent la classification des objets détectés. Nous notons que la dégradation de la précision moyenne (Average Precision, AP) pour les objets rares provient principalement de la mauvaise classification des nouvelles instances comme appartenant à des classes confondables. Nous atténuons ces problèmes de mauvaise classification en favorisant la compacité intra-classe et la variance inter-classe au niveau des instances grâce à notre perte d'encodage contrastif des propositions (Contrastive Proposal Encoding loss, CPE loss).Notre conception surpasses les travaux actuels de pointe dans toutes les configurations et tous les découpages de données, avec jusqu'à +8,8 % sur le banc d'essai standard PASCAL VOC et +2,7 % sur le banc d'essai difficile COCO. Le code est disponible à l'adresse suivante : https://github.com/MegviiDetection/FSCE