SipMask: Raumerhaltung für schnelle Instanzsegmentierung von Bildern und Videos

Einstufige Instanzsegmentierungsmethoden haben aufgrund ihrer Geschwindigkeit und Einfachheit kürzlich an Popularität gewonnen, sind aber hinsichtlich der Genauigkeit den zweistufigen Methoden noch unterlegen. Wir schlagen eine schnelle einstufige Instanzsegmentierungsmethode vor, die SipMask genannt wird. Diese Methode bewahrt instanzspezifische räumliche Informationen, indem sie die Maskeinesvorhersage einer Instanz in verschiedene Unterregionen eines detektierten Bounding-Box trennt. Unser Hauptbeitrag ist ein neuartiges, leistungsfähiges räumliches Erhaltungsmodul (light-weight spatial preservation [SP] module), das für jede Unterregion innerhalb eines Bounding-Box einen eigenen Satz von räumlichen Koeffizienten generiert, was zu verbesserten Maskenvorhersagen führt. Es ermöglicht auch eine präzise Abgrenzung räumlich benachbarter Instanzen. Darüber hinaus führen wir einen Verlust für die Maskenausrichtungsgewichtung und ein Schema zur Merkmalausrichtung ein, um die Korrelation zwischen Maskenvorhersage und Objekterkennung zu verbessern. Auf COCO test-dev übertrifft unser SipMask die bestehenden einstufigen Methoden. Verglichen mit dem aktuellen Stand der Technik im Bereich der einstufigen TensorMask-Methode erreicht SipMask einen absoluten Gewinn von 1,0 % (Maske AP), während es gleichzeitig eine vierfache Beschleunigung bietet. Hinsichtlich der Echtzeitfähigkeiten übertrifft SipMask YOLACT bei ähnlichen Einstellungen mit einem absoluten Gewinn von 3,0 % (Maske AP) und arbeitet auf einem Titan Xp vergleichbar schnell. Wir evaluieren unser SipMask auch für die Echtzeit-Instanzsegmentierung in Videos und erzielen vielversprechende Ergebnisse auf dem YouTube-VIS-Datensatz. Der Quellcode ist unter https://github.com/JialeCao001/SipMask verfügbar.