WSOD avec PSNet et régression de boîtes

La tâche de détection d’objets faiblement supervisée (WSOD) utilise uniquement des annotations au niveau d’image pour entraîner un modèle de détection d’objets. Étant donné qu’elle ne nécessite pas d’annotations au niveau d’instance, qui sont coûteuses en temps, cette tâche suscite un intérêt croissant. Les méthodes précédentes de détection d’objets faiblement supervisée mettent en œuvre une mise à jour itérative du détecteur et des pseudo-étiquettes, ou bien utilisent des méthodes basées sur les caractéristiques pour masquer certaines régions. Toutefois, la plupart de ces approches génèrent des propositions incomplètes ou peu précises, souvent limitées aux parties les plus discriminantes de l’objet, ou au contraire contenant une trop grande proportion de zones de fond. Pour résoudre ce problème, nous avons intégré un module de régression de boîtes dans le réseau de détection d’objets faiblement supervisée, et proposé un réseau de notation de propositions (PSNet) afin de superviser ce module. Le module de régression de boîtes améliore la qualité des propositions en augmentant leur intersection sur union (IoU) par rapport aux vérités terrain. Le PSNet évalue les propositions produites par le réseau de régression de boîtes, et utilise ces scores pour affiner davantage le module de régression. Par ailleurs, nous avons exploité l’algorithme PRS afin de générer des pseudo-étiquettes plus précises, permettant ainsi un entraînement plus efficace du module de régression de boîtes. Grâce à ces méthodes, nous avons entraîné un détecteur sur les jeux de données PASCAL VOC 2007 et 2012, obtenant des résultats significativement améliorés.