YOLACT: Echtzeit-Instanzsegmentierung

Wir präsentieren ein einfaches, vollständig faltungsnetzbasiertes Modell für die Echtzeit-Instanzsegmentierung, das auf MS COCO bei 33,5 Bildern pro Sekunde (fps) eine mittlere Genauigkeit von 29,8 mAP erreicht, wenn es auf einem einzelnen Titan Xp evaluiert wird. Dies ist erheblich schneller als jeder bisherige wettbewerbsfähige Ansatz. Darüber hinaus erzielen wir dieses Ergebnis nach der Ausbildung auf nur einer GPU. Wir erreichen dies, indem wir die Instanzsegmentierung in zwei parallele Teilprobleme aufteilen: (1) die Erzeugung eines Satzes von Prototypmasken und (2) die Vorhersage von Maskenkoeffizienten pro Instanz. Anschließend produzieren wir die Instanzmasken durch lineare Kombination der Prototypmasken mit den Maskenkoeffizienten. Wir stellen fest, dass dieser Prozess nicht von einem Rückpooling abhängt und daher sehr hochwertige Masken erzeugt sowie zeitliche Stabilität ohne zusätzlichen Aufwand bietet. Des Weiteren analysieren wir das entstehende Verhalten unserer Prototypmasken und zeigen, dass sie trotz ihrer vollständig faltungsnetzbasierten Struktur in einer translationsvarianten Weise lernen, Instanzen selbstständig zu lokalisieren. Schließlich schlagen wir Fast NMS vor, eine direkte Ersatzlösung für das Standard-NMS, die 12 ms schneller ist und nur einen marginalen Leistungsverlust hat.