ISDA: Position-Aware Instance Segmentation mit deformierbarer Aufmerksamkeit

Die meisten Instanzsegmentierungsmodelle sind aufgrund der Integration von Vorschlagsabschätzung (RPN) als Vorverarbeitung oder der nicht-maximalen Unterdrückung (NMS) als Nachverarbeitung nicht end-to-end trainierbar. In diesem Beitrag stellen wir eine neuartige end-to-end Instanzsegmentierungsmethode vor, die ISDA genannt wird. Dabei wird die Aufgabe dahingehend umgestaltet, eine Menge von Objektmasken vorherzusagen, die mittels herkömmlicher Faltungsoperationen mit lernbaren, positionsbewussten Kernen und Objektmerkmalen generiert werden. Diese Kerne und Merkmale werden durch Ausnutzung eines deformierbaren Aufmerksamkeitsnetzwerks mit multiskaliger Darstellung gelernt. Dank der eingeführten Set-Prediction-Mechanismus ist die vorgeschlagene Methode NMS-frei. Experimentell übertrifft ISDA Mask R-CNN (den starken Baseline) um 2,6 Punkte auf MS-COCO und erreicht eine führende Leistung im Vergleich zu jüngeren Modellen. Der Quellcode wird in Kürze verfügbar sein.