HyperAIHyperAI

Command Palette

Search for a command to run...

BoxVIS: Video Instance Segmentation mit Box-Anmerkungen

Minghan Li Lei Zhang

Zusammenfassung

Die pixelgenaue Annotation von Objektmasken in Videos ist kostspielig und sehr aufwendig im Arbeitsaufwand. Dadurch ist die Menge an pixelgenauen Annotationen in bestehenden Video-Instance-Segmentation-(VIS)-Datensätzen gering, was die Generalisierungsfähigkeit trainierter VIS-Modelle einschränkt. Eine alternative, jedoch deutlich kostengünstigere Lösung besteht darin, Instanzen in Videos mit Bounding Boxes zu annotieren. Inspiriert durch den jüngsten Erfolg box-supervisierter Bild-Instance-Segmentation-Methoden, adaptieren wir state-of-the-art pixel-supervisierte VIS-Modelle zu einer box-supervisierten VIS-Baseline (BoxVIS) und beobachten eine geringfügige Leistungsverschlechterung. Wir schlagen daher zwei Ansätze zur Verbesserung der BoxVIS-Leistung vor. Erstens stellen wir eine box-center-gestützte räumlich-zeitliche paarweise Affinitäts-(STPA-)Verlustfunktion vor, um Instanzenmasken mit besserer räumlicher und zeitlicher Konsistenz vorherzusagen. Zweitens sammeln wir einen größeren box-annotierten VIS-Datensatz (BVISD), indem wir Videos aus aktuellen VIS-Benchmarks zusammenführen und Bilder aus dem COCO-Datensatz in kurze, pseudo-video-ähnliche Clips umwandeln. Mit dem vorgeschlagenen BVISD und der STPA-Verlustfunktion erreicht unser trainiertes BoxVIS-Modell eine Masken-AP von 43,2 % und 29,0 % auf den Validierungssets von YouTube-VIS 2021 und OVIS, jeweils. Es zeigt vergleichbare Leistung bei der Instanzmaskenvorhersage und eine bessere Generalisierungsfähigkeit als aktuell beste pixel-supervisierte VIS-Modelle, wobei lediglich 16 % der Annotationzeit und -kosten benötigt werden. Der Quellcode und die Daten sind unter \url{https://github.com/MinghanLi/BoxVIS} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp