Schwach überwachtes Lernen von Instanzsegmentierung mit Interpixel-Beziehungen

Dieses Papier stellt einen neuen Ansatz zur Lernung von Instanzsegmentierung mit Bildklassenlabels als Supervision vor. Unser Ansatz generiert Pseudo-Instanzsegmentierungslabel für die Trainingsbilder, die verwendet werden, um ein vollständig überwachtes Modell zu trainieren. Für die Generierung der Pseudolabel identifizieren wir zunächst vertrauenswürdige Seed-Bereiche der Objektklassen aus den Aufmerksamkeitskarten eines Bildklassifikationsmodells und verbreiten diese, um die gesamten Instanzenbereiche mit genauen Grenzen zu entdecken. Zu diesem Zweck schlagen wir das IRNet (Instance Relation Network) vor, das grobe Bereiche einzelner Instanzen schätzt und Grenzen zwischen verschiedenen Objektklassen erkennt. Dadurch ist es möglich, Instanzlabels den Seeds zuzuordnen und diese innerhalb der Grenzen zu verbreiten, sodass die gesamten Bereiche der Instanzen genau geschätzt werden können. Des Weiteren wird IRNet mit Interpixel-Beziehungen auf den Aufmerksamkeitskarten trainiert, wodurch keine zusätzliche Supervision erforderlich ist. Unsere Methode mit IRNet erzielt eine herausragende Leistung auf dem PASCAL VOC 2012-Datensatz, indem sie nicht nur frühere State-of-the-Art-Modelle übertreffen, die mit der gleichen Supervisionsstufe trainiert wurden, sondern auch einige frühere Modelle, die stärkere Supervision benötigen.