Die Brücke zwischen kategorienbasiertem und instanzbasiertem semantischen Bildsegmentierung

Wir schlagen einen Ansatz für die instanzbasierte Bildsegmentierung vor, der auf der kategorienbasierten Segmentierung aufbaut. Insbesondere wird für jeden Pixel in einer semantischen Kategorie-Maske das entsprechende Instanz-Bounding-Box mithilfe eines tiefen, vollständig konvolutionellen Regressionsnetzes vorhergesagt. Dies folgt einem anderen Pipeline-Vorgehen im Vergleich zu den gängigen detect-then-segment Ansätzen, die zunächst die Bounding-Boxen der Instanzen vorhersagen, was derzeit der Stand der Technik in der Instanzsegmentierung ist. Wir zeigen, dass unser vorgeschlagener Ansatz durch die Nutzung der Stärken unserer standesüblichen semantischen Segmentierungsmodelle vergleichbare oder sogar bessere Ergebnisse als die detect-then-segment Ansätze erzielen kann. Unser Beitrag gliedert sich wie folgt:(i) Erstens schlagen wir einen einfachen aber effektiven Ansatz zur semantischen Instanzsegmentierung vor.(ii) Zweitens schlagen wir eine Online-Bootstrapping-Methode während des Trainings vor, die von entscheidender Bedeutung ist, um eine gute Leistung sowohl bei der semantischen Kategorie-Segmentierung als auch bei der instanzbasierten Segmentierung zu erreichen.(iii) Da die Leistung der semantischen Kategorie-Segmentierung einen erheblichen Einfluss auf die instanzbasierte Segmentierung hat, die den zweiten Schritt unseres Ansatzes bildet, trainieren wir vollständig konvolutionelle Residualnetze, um die beste Genauigkeit bei der semantischen Kategorie-Segmentierung zu erreichen. Auf dem PASCAL VOC 2012 Datensatz erzielen wir den momentan besten Durchschnittswert des Intersection-over-Union (IoU)-Scores von 79,1 %.(iv) Wir erzielen zudem standesübliche Ergebnisse bei der instanzbasierten Segmentierung.