HyperAIHyperAI

Command Palette

Search for a command to run...

Raumliche Merkmalskalibrierung und zeitliche Fusionsstrategie für eine effektive einstufige Video-Instanzsegmentierung

Minghan Li Shuai Li Lida Li Lei Zhang

Zusammenfassung

Moderne einstufige Netzwerke für die Video-Instanzsegmentierung leiden unter zwei Einschränkungen. Erstens sind konvolutionale Merkmale weder mit den Anchor-Boxen noch mit den Ground-Truth-Bounding-Boxes ausgerichtet, was die Maskensensitivität gegenüber räumlichen Positionen verringert. Zweitens wird ein Video direkt in einzelne Frames zerlegt, um framebasierte Instanzsegmentierung durchzuführen, wodurch die zeitliche Korrelation zwischen benachbarten Frames ignoriert wird. Um diese Probleme zu lösen, schlagen wir einen einfachen, jedoch wirksamen einstufigen Rahmen für die Video-Instanzsegmentierung vor, der räumliche Kalibrierung und zeitliche Fusion nutzt, und nennen ihn STMask. Um eine räumliche Merkmalskalibrierung mit den Ground-Truth-Bounding-Boxes sicherzustellen, schätzen wir zunächst regressierte Bounding-Boxes um die Ground-Truth-Bounding-Boxes herum vor und extrahieren Merkmale aus diesen, um die framebasierte Instanzsegmentierung durchzuführen. Um zudem die zeitliche Korrelation zwischen Video-Frames besser zu erfassen, integrieren wir ein zeitliches Fusionsmodul, das Instanzmasken von jedem Frame auf seine benachbarten Frames überträgt, wodurch unser Ansatz in der Lage ist, anspruchsvolle Videos mit Bewegungsunschärfe, teilweiser Verdeckung und ungewöhnlichen Objekt-zu-Kamera-Positionen zu bewältigen. Experimente auf dem YouTube-VIS Validierungsset zeigen, dass STMask mit einem ResNet-50/-101-Backbone eine Mask-AP von 33,5 % / 36,8 % erreicht und gleichzeitig 28,6 / 23,4 FPS für die Video-Instanzsegmentierung erzielt. Der Quellcode ist online verfügbar unter https://github.com/MinghanLi/STMask.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Raumliche Merkmalskalibrierung und zeitliche Fusionsstrategie für eine effektive einstufige Video-Instanzsegmentierung | Paper | HyperAI