Entraînement de détecteurs d'objets à partir de peu d'images faiblement étiquetées et de nombreuses images non étiquetées

La détection d’objets faiblement supervisée vise à réduire la quantité d’information supervisée en éliminant la nécessité de boîtes englobantes, tout en supposant toutefois l’existence de labels au niveau de l’image sur l’ensemble d’entraînement complet. Dans ce travail, nous étudions le problème de l’entraînement d’un détecteur d’objets à partir d’une ou quelques images étiquetées au niveau de l’image, combinées à un ensemble plus important d’images entièrement non étiquetées. Il s’agit d’un cas extrême d’apprentissage semi-supervisé, où les données étiquetées sont insuffisantes pour initier l’apprentissage d’un détecteur. Notre solution consiste à entraîner un modèle de détecteur étudiant faiblement supervisé à partir de pseudo-étiquettes au niveau de l’image générées sur l’ensemble non étiqueté par un modèle classificateur enseignant, lui-même initialisé par des similarités au niveau des régions avec les images étiquetées. En s’appuyant sur le pipeline récent et représentatif de détection faiblement supervisée PCL, notre méthode permet d’utiliser un plus grand nombre d’images non étiquetées afin d’atteindre des performances compétitives, voire supérieures, à celles de nombreuses solutions récentes de détection faiblement supervisée.