CenterMask: Echtzeit-Anchorfreie Instanzsegmentierung

Wir schlagen eine einfache und dennoch effiziente anchor-freie Instanzsegmentierung vor, die als CenterMask bezeichnet wird. Diese erweitert den anchor-freien One-Stage-Objekterkennungsdetektor (FCOS) um einen neuen räumlich aufmerksamkeitsgesteuerten Maskenast (SAG-Mask), ähnlich wie bei Mask R-CNN. Wenn der SAG-Mask-Ast in den FCOS-Detektor integriert wird, prognostiziert er eine SegmentierungsMaske für jedes Box mit Hilfe einer räumlichen Aufmerksamkeitskarte, die es ermöglicht, relevante Pixel zu fokussieren und Rauschen zu unterdrücken. Zudem präsentieren wir ein verbessertes Backbone-Netzwerk, VoVNetV2, das zwei effektive Strategien anwendet: (1) Residuelle Verbindungen zur Linderung des Optimierungsproblems bei größeren VoVNet \cite{lee2019energy} und (2) effektive Squeeze-Excitation (eSE), um das Problem des Informationsverlusts in den Kanälen des ursprünglichen SE zu lösen. Mit SAG-Mask und VoVNetV2 entwickeln wir CenterMask und CenterMask-Lite, welche jeweils für große und kleine Modelle ausgelegt sind. Unter Verwendung des gleichen ResNet-101-FPN-Backbones erreicht CenterMask 38,3 %, was alle bisherigen Stand-von-die-Kunst-Methoden übertrifft und dabei deutlich schneller ist. Auch CenterMask-Lite übertrifft den Stand der Technik um erhebliche Margen bei mehr als 35 FPS auf Titan Xp. Wir hoffen, dass CenterMask und VoVNetV2 als solide Baseline für Echtzeit-Instanzsegmentierung und Backbone-Netzwerk für verschiedene Vision-Aufgaben dienen können. Der Quellcode ist unter https://github.com/youngwanLEE/CenterMask verfügbar.