Lernen von Instanz-Oklusion für Panoramasegmentierung

Die panoptische Segmentierung erfordert Segmente sowohl von „Dingen“ (zählbaren Objektinstanzen) als auch von „Stoffen“ (unzählbaren und amorphen Bereichen) innerhalb einer einzelnen Ausgabe. Ein üblicher Ansatz besteht in der Fusion von Instanzsegmentierung (für „Dinge“) und semantischer Segmentierung (für „Stoffe“) zu einer nicht überlappenden Platzierung der Segmente und löst Überlappungen auf. Allerdings korrelieren die Instanzreihenfolgen mit dem Detektionsvertrauen nicht gut mit natürlichen Verdeckungsbeziehungen. Um dieses Problem zu lösen, schlagen wir einen Zweig vor, der die Modellierung darüber, wie zwei Instanzmasken einander überlappen sollten, als binäre Beziehung behandelt. Unsere Methode, OCFusion genannt, ist leichtgewichtig, aber besonders effektiv im Prozess der Instanzfusion. OCFusion wird mit der aus den vorhandenen Datensatzannotierungen automatisch abgeleiteten wahren Beziehung trainiert. Wir erzielen Stand-der-Technik-Ergebnisse auf COCO und zeigen wettbewerbsfähige Ergebnisse auf dem Cityscapes-Panoptik-Segmentierungsbenchmark.