HyperAIHyperAI
vor 2 Monaten

YOLACT++: Bessere Echtzeit-Instanzsegmentierung

Daniel Bolya; Chong Zhou; Fanyi Xiao; Yong Jae Lee
YOLACT++: Bessere Echtzeit-Instanzsegmentierung
Abstract

Wir präsentieren ein einfaches, vollständig faltungsnetzbasiertes Modell für die Echtzeit-Instanzsegmentierung (>30 fps), das wettbewerbsfähige Ergebnisse auf MS COCO erzielt, wenn es auf einem einzelnen Titan Xp evaluiert wird. Dies ist erheblich schneller als jeder bisherige Stand der Technik. Darüber hinaus erhalten wir dieses Ergebnis nach dem Training auf nur einer GPU. Wir erreichen dies, indem wir die Instanzsegmentierung in zwei parallele Teilprobleme unterteilen: (1) die Erstellung eines Satzes von Prototypmasken und (2) die Vorhersage von Maskenkoeffizienten pro Instanz. Anschließend generieren wir die Instanzmasken durch lineare Kombination der Prototypmasken mit den Maskenkoeffizienten. Wir stellen fest, dass dieser Prozess nicht von Re-Pooling abhängt, was zu sehr hochwertigen Masken führt und zeitliche Stabilität ohne zusätzlichen Aufwand gewährleistet. Des Weiteren analysieren wir das entstehende Verhalten unserer Prototypmasken und zeigen, dass sie trotz ihrer vollständig faltungsnetzbasierten Struktur lernen, Instanzen in übersetzungsvarianter Weise selbstständig zu lokalisieren. Zudem schlagen wir Fast NMS vor, eine direkte Ersatzlösung für die Standard-NMS, die 12 ms schneller ist und nur einen geringfügigen Leistungseinbuß hat. Schließlich erreicht unser YOLACT++-Modell durch Einbindung deformierbarer Faltungen in das Backbone-Netzwerk, Optimierung des Vorhersagekopfs mit besseren Ankergrößen und -verhältnissen sowie Hinzufügen eines neuartigen schnell arbeitenden Masken-Rescoring-Zweigs 34,1 mAP auf MS COCO bei 33,5 fps. Dies liegt nahe am aktuellen Stand der Technik und läuft gleichzeitig in Echtzeit.