Apprentissage par instances multiples sur des caractéristiques profondes pour la détection d'objets supervisée faiblement avec des décalages de domaine extrêmes

La détection d'objets sous supervision faible (WSOD) utilisant uniquement des annotations au niveau de l'image a suscité un intérêt croissant au cours des dernières années. Bien que cette tâche soit généralement abordée par des solutions spécifiques au domaine, centrées sur les images naturelles, nous démontrons qu'une approche simple basée sur les instances multiples appliquée aux caractéristiques profondes pré-entraînées permet d'obtenir de très bons résultats sur des jeux de données non photographiques, pouvant inclure de nouvelles catégories. Cette méthode ne nécessite ni ajustement fin (fine-tuning), ni apprentissage à travers des domaines, ce qui la rend efficace et potentiellement applicable à tout type de jeu de données et de catégories. Nous explorons plusieurs variantes de l'approche proposée, certaines incluant des perceptrons multicouches et des classificateurs polyédriques. Malgré sa simplicité, notre méthode obtient des résultats compétitifs sur une variété de jeux de données publiques, notamment des peintures (People-Art, IconArt), des aquarelles, des cliparts et des bandes dessinées, et permet d'apprendre rapidement de nouvelles catégories visuelles inconnues.