Guidage cyclique pour la détection et la segmentation conjointes faiblement supervisées

L'apprentissage faiblement supervisé a suscité un intérêt croissant dans la recherche en raison de l’économie significative de coûts d’annotation pour les tâches nécessitant des annotations intra-image, telles que la détection d’objets et la segmentation sémantique. À cette fin, les approches existantes d’apprentissage faiblement supervisé pour la détection d’objets et la segmentation sémantique suivent une pipeline itérative d’extraction de labels et d’entraînement de modèle. Toutefois, ce type de pipeline auto-renforçant rend les deux tâches sujettes à s’engager dans des minima locaux. Dans cet article, nous proposons pour la première fois une approche de apprentissage multi-tâches qui joint la détection d’objets et la segmentation sous une même architecture faiblement supervisée, exploitant les schémas d’échec propres à chacune des deux tâches afin de compléter mutuellement leur apprentissage. Ce renforcement croisé entre tâches permet à chacune de s’échapper de ses propres minima locaux. Plus précisément, nous introduisons un cadre efficace et performant, nommé Weakly Supervised Joint Detection and Segmentation (WS-JDS). WS-JDS dispose de deux branches dédiées respectivement à la détection et à la segmentation, partageant le même réseau de base (backbone). Pendant l’étape d’apprentissage, il adopte un paradigme d’entraînement cyclique commun, mais avec une fonction de perte spécifique qui permet aux deux branches de bénéficier mutuellement. Des expériences étendues ont été menées sur les benchmarks largement utilisés Pascal VOC et COCO, démontrant que notre modèle atteint des performances compétitives par rapport aux algorithmes de pointe actuels.