BoxTeacher: Erkundung hochwertiger Pseudo-Labels für schwach überwachte Instanzsegmentierung

Die Beschriftung von Objekten durch pixelweise Segmentierung erfordert im Vergleich zu Begrenzungsrahmen eine enorme Menge an menschlicher Arbeit. Die meisten existierenden Methoden für schwach überwachte Instanzsegmentierung konzentrieren sich darauf, heuristische Verlustfunktionen mit Vorwissen aus Begrenzungsrahmen zu entwerfen. Wir haben jedoch festgestellt, dass box-supervisierte Methoden einige feine Segmentierungsmasken erzeugen können, und wir fragen uns, ob die Detektoren von diesen hochwertigen Masken lernen könnten, während sie Masken niedriger Qualität ignorieren. Um diese Frage zu beantworten, stellen wir BoxTeacher vor, einen effizienten und end-to-end Trainingsrahmen für leistungsstarke schwach überwachte Instanzsegmentierung. Dieser nutzt einen anspruchsvollen Lehrer, um hochwertige Masken als Pseudobeschriftungen zu generieren.Da massive verrauschte Masken das Training beeinträchtigen, präsentieren wir eine maskenspezifische Konfidenzscore (mask-aware confidence score), um die Qualität der Pseudomasken abzuschätzen. Wir schlagen ferner den noise-aware Pixelverlust und den noise-reduced Affinitätsverlust vor, um den Schüler adaptiv mit den Pseudomasken zu optimieren. Ausführliche Experimente demonstrieren die Effektivität des vorgeschlagenen BoxTeacher. Ohne zusätzliche Verbesserungen erreicht BoxTeacher auf dem anspruchsvollen COCO-Datensatz 35,0 Mask-AP bei Verwendung von ResNet-50 und 36,5 Mask-AP bei Verwendung von ResNet-101. Diese Ergebnisse übertreffen die bisher besten Methoden deutlich und schließen die Lücke zwischen box-supervisierter und mask-supervisierter Segmentierung. Der Code und die Modelle werden unter https://github.com/hustvl/BoxTeacher zur Verfügung gestellt.