Instanzbewusste semantische Segmentierung durch Mehrfach-Aufgaben-Netzwerkkaskaden

Die Forschung im Bereich semantischer Segmentierung hat kürzlich rasche Fortschritte gemacht, jedoch sind viele führende Methoden nicht in der Lage, Objektinstanzen zu identifizieren. In dieser Arbeit stellen wir Multi-task Network Cascades für eine instanzbasierte semantische Segmentierung vor. Unser Modell besteht aus drei Netzwerken, die jeweils Instanzen differenzieren, Masken schätzen und Objekte kategorisieren. Diese Netzwerke bilden eine kaskadierte Struktur und sind so gestaltet, dass sie ihre Faltungsmerkmale teilen. Wir entwickeln einen Algorithmus für das anspruchsvolle end-to-end Training dieser kausalen, kaskadierten Struktur. Unsere Lösung ist ein klarer, einstufiger Trainingsrahmen und kann auf Kaskaden mit mehr Stufen verallgemeinert werden. Wir zeigen die Standesbestimmende Genauigkeit bei instanzbasierter semantischer Segmentierung am PASCAL VOC-Datensatz. Gleichzeitig benötigt unsere Methode nur 360 ms zur Bildanalyse unter Verwendung von VGG-16, was zwei Größenordnungen schneller ist als frühere Systeme für dieses herausfordernde Problem. Als Nebenprodukt erreicht unsere Methode auch überzeugende Ergebnisse in der Objekterkennung, die die wettbewerbsfähigen Fast/Faster R-CNN-Systeme übertreffen.Die in dieser Arbeit beschriebene Methode bildet die Grundlage unserer Einreichungen zum MS COCO 2015 Segmentation Wettbewerb, wo wir den ersten Platz belegten.