Vers un réseau de détection d'objets faiblement supervisé bout-en-bout précis

Il est difficile pour un réseau de détection d’objets faiblement supervisé de prédire avec précision les positions des objets, en l’absence d’étiquettes catégorielles au niveau des instances. La plupart des méthodes existantes tentent de résoudre ce problème en adoptant une procédure d’apprentissage en deux phases : d’abord un détecteur basé sur l’apprentissage par instances multiples (MIL), suivi d’un détecteur d’apprentissage entièrement supervisé avec régression de boîtes englobantes. Toutefois, en nous basant sur notre observation, cette approche peut conduire à des minima locaux pour certaines catégories d’objets. Dans ce papier, nous proposons d’entraîner les deux phases de manière conjointe et end-to-end afin de surmonter ce problème. Plus précisément, nous concevons un unique réseau comportant deux branches — l’une pour l’apprentissage par instances multiples, l’autre pour la régression de boîtes englobantes — partageant le même squelette (backbone). Par ailleurs, nous intégrons un module d’attention guidée, fondé sur la perte de classification, au sein du squelette, afin d’extraire efficacement les informations implicites de localisation présentes dans les caractéristiques. Les résultats expérimentaux sur des jeux de données publics démontrent que notre méthode atteint des performances de pointe.