EmbedMask: Embedding-Kopplung für einstufige Instanzsegmentierung

Aktuelle Methoden zur Instanzsegmentierung lassen sich in zwei Kategorien einteilen: segmentierungsorientierte Ansätze, die zunächst segmentieren und anschließend Clustering durchführen, sowie vorschlagbasierte Methoden, die zunächst Objektdetektion durchführen und dann für jeden Instanzvorschlag mithilfe von Repooling Masken vorhersagen. In dieser Arbeit stellen wir eine einstufige Methode namens EmbedMask vor, die beide Ansätze durch die Kombination ihrer Stärken vereint. Ähnlich wie vorschlagbasierte Methoden basiert EmbedMask auf Detektionsmodellen und verfügt daher über eine starke Detektionsleistung. Gleichzeitig integriert EmbedMask zusätzliche Embedding-Module zur Generierung von Embeddings für Pixel und Vorschläge, wobei die Pixel-Embeddings durch die zugehörigen Vorschlags-Embeddings geleitet werden, wenn sie derselben Instanz angehören. Durch diesen verschmolzenen Embedding-Prozess werden Pixel der Maske des entsprechenden Vorschlags zugewiesen, wenn ihre Embeddings ähnlich sind. Diese pixelbasierte Clustering-Strategie ermöglicht es EmbedMask, hochauflösende Masken ohne Informationsverlust durch Repooling zu erzeugen, während die Existenz von Vorschlags-Embeddings den Clustering-Prozess vereinfacht und verstärkt, was zu einer höheren Geschwindigkeit und einer besseren Leistung im Vergleich zu segmentierungsorientierten Methoden führt. Ohne zusätzliche Komplexitäten erreicht EmbedMask eine vergleichbare Leistung wie Mask R-CNN, die repräsentative zweistufige Methode, und erzeugt zudem detailliertere Masken mit höherer Geschwindigkeit. Der Quellcode ist unter github.com/yinghdb/EmbedMask verfügbar.