Mask R-CNN

Wir präsentieren ein konzeptuell einfaches, flexibles und allgemeines Framework für die Instanzsegmentierung von Objekten. Unser Ansatz erkennt Objekte in einem Bild effizient, während gleichzeitig eine hochwertige Segmentierungsmaske für jede Instanz generiert wird. Die Methode, als Mask R-CNN bezeichnet, erweitert Faster R-CNN durch Hinzufügen eines Zweigs zur Vorhersage einer Objektmaske parallel zum bestehenden Zweig für die Erkennung von Begrenzungsrahmen (bounding box). Mask R-CNN ist einfach zu trainieren und fügt nur einen geringen Mehraufwand zu Faster R-CNN hinzu, wobei es bei 5 Bildern pro Sekunde läuft. Darüber hinaus ist Mask R-CNN leicht auf andere Aufgaben zu übertragen, z.B. ermöglicht es uns die Schätzung von menschlichen Körperhaltungen im selben Framework. Wir zeigen Spitzenergebnisse in allen drei Wettbewerbsdisziplinen des COCO-Challenges-Suites, einschließlich Instanzsegmentierung, Objekterkennung durch Begrenzungsrahmen und Detektion von Personenschlüsselpunkten (keypoint detection). Ohne zusätzliche Verfeinerungen übertreffen die Ergebnisse von Mask R-CNN alle vorhandenen Einzelmodell-Einträge in jeder Aufgabe, darunter auch die Gewinner des COCO 2016 Challenges. Wir hoffen, dass unser einfacher und effektiver Ansatz als solide Grundlage dienen und zukünftige Forschungen auf der Instanzebene erleichtern wird.Der Code ist unter folgender URL verfügbar: https://github.com/facebookresearch/Detectron