Einschuss-Instanzsegmentierung

Wir befassen uns mit dem Problem der One-Shot-Instanzsegmentierung: Gegeben sei ein Beispielbild einer neuen, bisher unbekannten Objektkategorie. Das Ziel ist es, alle Objekte dieser Kategorie in einer komplexen Szene zu finden und zu segmentieren. Um diese herausfordernde neue Aufgabe anzugehen, schlagen wir das Siamese Mask R-CNN vor. Diese Erweiterung des Mask R-CNN umfasst einen Siamesen Backbone, der sowohl das Referenzbild als auch die Szene kodiert, was es ermöglicht, die Detektion und Segmentierung auf die Referenzkategorie auszurichten. Wir präsentieren empirische Ergebnisse am MS Coco-Datensatz, die die Herausforderungen des One-Shot-Einstellungs verdeutlichen: Während das Übertragen von Wissen über Instanzsegmentierung auf neue Objektkategorien sehr gut funktioniert, erscheint es schwieriger, das Detektionsnetzwerk auf die Referenzkategorie auszurichten. Unsere Arbeit bietet eine erste starke Baseline für die One-Shot-Instanzsegmentierung und wird hoffentlich weitere Forschungen zu leistungsfähigeren und flexibleren Szenenanalysealgorithmen anregen. Der Code ist unter folgendem Link verfügbar: https://github.com/bethgelab/siamese-mask-rcnn