Weakly-supervised Instanzsegmentierung durch klassenunabhängiges Lernen mit auffälligen Bildern

Menschen verfügen über eine starke, klassenunabhängige Objektsegmentierungsfähigkeit und können die Konturen unbekannter Objekte präzise auszeichnen. Dies motiviert uns, eine auf Box-Supervision basierende Lösung für schwach überwachte Instanzsegmentierung vorzuschlagen (BoxCaseg). Das BoxCaseg-Modell wird in einem Multi-Task-Lernverfahren gemeinsam mit box-supervisierten Bildern und auffälligen Bildern trainiert. Die fein annotierten auffälligen Bilder bieten dem box-supervisierten Modell klassenunabhängige und präzise Objektlokalisationshinweise. Die durch das vortrainierte BoxCaseg-Modell vorhergesagten Objektmasken werden mittels einer neuartigen Merging-und-Dropping-Strategie als Proxy-Ground-Truth verfeinert, um ein Mask R-CNN für schwach überwachte Instanzsegmentierung zu trainieren. Unter Verwendung von nur 7991 auffälligen Bildern erreicht das schwach überwachte Mask R-CNN vergleichbare Ergebnisse wie das vollständig überwachte Mask R-CNN auf PASCAL VOC und übertreffen signifikant die bisher besten box-supervisierten Instanzsegmentierungsmethoden auf COCO. Der Quellcode, die vortrainierten Modelle und die Datensätze sind unter \url{https://github.com/hustvl/BoxCaseg} verfügbar.