BoxInst: Hochleistungs-Instanzsegmentierung mit Box-Annotierungen

Wir präsentieren eine hochleistungsfähige Methode, die Masken-Level-Instanzsegmentierung mit nur umrandenden Rechtecken als Trainingsannotierungen erreichen kann. Obwohl diese Einstellung bereits in der Literatur untersucht wurde, zeigen wir hier signifikant bessere Leistungen durch eine einfache Designentscheidung (z.B. durch eine erhebliche Verbesserung des zuvor besten gemeldeten Masken-AP von 21,1 % in Hsu et al. (2019) auf 31,6 % im COCO-Datensatz). Unser zentrales Konzept besteht darin, den Verlust für das Lernen von Masken in der Instanzsegmentierung neu zu gestalten, ohne Änderungen am Segmentierungsnetzwerk selbst vorzunehmen. Die neuen Verlustfunktionen können die Maskentraining überwachen, ohne auf Maskenannotierungen angewiesen zu sein. Dies wird durch zwei Verlustterme ermöglicht: 1) einen Stellvertreterterm, der die Diskrepanz zwischen den Projektionen des Bodenwahrheits-Rechtecks und dem vorhergesagten Maskenbild minimiert; 2) einen paarweisen Verlust, der das Vorwissen nutzen kann, dass benachbarte Pixel mit ähnlichen Farben sehr wahrscheinlich dieselbe Kategorielabel haben. Experimente zeigen, dass der neu gestaltete Maskenverlust überraschend hohe Qualität von Instanzmasken erzielen kann, wenn nur Boxannotierungen verwendet werden. Zum Beispiel erreichen wir ohne jegliche Nutzung von Maskenannotierungen bei einem ResNet-101-Rückgratnetz und einem 3x Trainingszeitplan einen Masken-AP von 33,2 % im COCO Test-Dev-Split (im Vergleich zu 39,1 % des vollständig überwachten Gegenstücks). Unsere ausgezeichneten Experimentergebnisse auf COCO und Pascal VOC deuten darauf hin, dass unsere Methode den Leistungsunterschied zwischen schwach und vollständig überwachter Instanzsegmentierung erheblich verringert.Code ist verfügbar unter: https://git.io/AdelaiDet