Raumliche Merkmalskalibrierung und zeitliche Fusionsstrategie für eine effektive einstufige Video-Instanzsegmentierung

Moderne einstufige Netzwerke für die Video-Instanzsegmentierung leiden unter zwei Einschränkungen. Erstens sind konvolutionale Merkmale weder mit den Anchor-Boxen noch mit den Ground-Truth-Bounding-Boxes ausgerichtet, was die Maskensensitivität gegenüber räumlichen Positionen verringert. Zweitens wird ein Video direkt in einzelne Frames zerlegt, um framebasierte Instanzsegmentierung durchzuführen, wodurch die zeitliche Korrelation zwischen benachbarten Frames ignoriert wird. Um diese Probleme zu lösen, schlagen wir einen einfachen, jedoch wirksamen einstufigen Rahmen für die Video-Instanzsegmentierung vor, der räumliche Kalibrierung und zeitliche Fusion nutzt, und nennen ihn STMask. Um eine räumliche Merkmalskalibrierung mit den Ground-Truth-Bounding-Boxes sicherzustellen, schätzen wir zunächst regressierte Bounding-Boxes um die Ground-Truth-Bounding-Boxes herum vor und extrahieren Merkmale aus diesen, um die framebasierte Instanzsegmentierung durchzuführen. Um zudem die zeitliche Korrelation zwischen Video-Frames besser zu erfassen, integrieren wir ein zeitliches Fusionsmodul, das Instanzmasken von jedem Frame auf seine benachbarten Frames überträgt, wodurch unser Ansatz in der Lage ist, anspruchsvolle Videos mit Bewegungsunschärfe, teilweiser Verdeckung und ungewöhnlichen Objekt-zu-Kamera-Positionen zu bewältigen. Experimente auf dem YouTube-VIS Validierungsset zeigen, dass STMask mit einem ResNet-50/-101-Backbone eine Mask-AP von 33,5 % / 36,8 % erreicht und gleichzeitig 28,6 / 23,4 FPS für die Video-Instanzsegmentierung erzielt. Der Quellcode ist online verfügbar unter https://github.com/MinghanLi/STMask.