HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste Online-Video-Instanzsegmentierung mit Track-Abfragen

Zitong Zhan Daniel McKee Svetlana Lazebnik

Zusammenfassung

Kürzlich haben transformerbasierte Ansätze beeindruckende Ergebnisse bei der Video-Instance-Segmentation (VIS) erzielt. Allerdings verarbeiten die meisten dieser führenden Methoden die Videos in einer offline-Weise, indem sie den gesamten Videoclip gleichzeitig verarbeiten, um Instanzmaskenvolumina vorherzusagen. Dies macht sie ungeeignet für die Behandlung langer Videos, wie sie in anspruchsvollen neuen VIS-Datensätzen wie UVO und OVIS vorkommen. Wir stellen ein vollständig online arbeitendes, transformerbasiertes Modell zur Video-Instance-Segmentation vor, das auf dem YouTube-VIS 2019-Benchmark mit den besten offline-Methoden konkurrieren kann und auf UVO und OVIS erheblich besser abschneidet. Diese Methode, die als Robust Online Video Segmentation (ROVIS) bezeichnet wird, erweitert das Mask2Former-Modell für die Bild-Instance-Segmentation um Track-Queries – einen leichten Mechanismus zur Übertragung von Track-Informationen zwischen Bildern, der ursprünglich von der TrackFormer-Methode für die Multi-Object-Tracking-Erkennung eingeführt wurde. Wir zeigen, dass Track-Queries, wenn sie mit einer ausreichend leistungsfähigen Architektur für die Bildsegmentierung kombiniert werden, beeindruckende Genauigkeit erzielen können, ohne auf kurze Videos beschränkt zu sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Robuste Online-Video-Instanzsegmentierung mit Track-Abfragen | Paper | HyperAI