GMNet: Graph Matching Network für die große Skalen-Teil-Semantische Segmentierung in natürlichen Umgebungen

Die semantische Segmentierung von Objektteilen in natürlichen Szenen stellt eine herausfordernde Aufgabe dar, bei der mehrere Instanzen von Objekten sowie mehrere Teile innerhalb dieser Objekte in einer Szene detektiert werden müssen. Dieses Problem wird heute trotz seiner grundlegenden Bedeutung für ein detailliertes Objektverständnis nach wie vor nur sehr marginal erforscht. In dieser Arbeit stellen wir einen neuartigen Ansatz vor, der höherstufige objektbasierte Kontextbedingungen mit teilbasierten räumlichen Beziehungen kombiniert, um diese Aufgabe zu lösen. Um die Ambiguität auf Objektebene zu bewältigen, führen wir ein klassenbedingtes Modul ein, das die Klassensemantik beibehält, wenn Teilebene-Semantik gelernt wird. Auf diese Weise enthalten die mittleren Merkmale bereits diese Information vor der Dekodierungsphase. Um die Ambiguität und Lokalisierung auf Teilebene zu adressieren, schlagen wir ein neuartiges, auf einem Adjazenzgraphen basierendes Modul vor, das darauf abzielt, die relativen räumlichen Beziehungen zwischen den wahren Teilen (ground truth) und den vorhergesagten Teilen zu matchen. Die experimentelle Evaluierung auf dem Pascal-Part-Datensatz zeigt, dass wir hierbei Ergebnisse auf dem Stand der Technik erreichen.