HyperAIHyperAI
vor 18 Tagen

Robuste Online-Video-Instanzsegmentierung mit Track-Abfragen

Zitong Zhan, Daniel McKee, Svetlana Lazebnik
Robuste Online-Video-Instanzsegmentierung mit Track-Abfragen
Abstract

Kürzlich haben transformerbasierte Ansätze beeindruckende Ergebnisse bei der Video-Instance-Segmentation (VIS) erzielt. Allerdings verarbeiten die meisten dieser führenden Methoden die Videos in einer offline-Weise, indem sie den gesamten Videoclip gleichzeitig verarbeiten, um Instanzmaskenvolumina vorherzusagen. Dies macht sie ungeeignet für die Behandlung langer Videos, wie sie in anspruchsvollen neuen VIS-Datensätzen wie UVO und OVIS vorkommen. Wir stellen ein vollständig online arbeitendes, transformerbasiertes Modell zur Video-Instance-Segmentation vor, das auf dem YouTube-VIS 2019-Benchmark mit den besten offline-Methoden konkurrieren kann und auf UVO und OVIS erheblich besser abschneidet. Diese Methode, die als Robust Online Video Segmentation (ROVIS) bezeichnet wird, erweitert das Mask2Former-Modell für die Bild-Instance-Segmentation um Track-Queries – einen leichten Mechanismus zur Übertragung von Track-Informationen zwischen Bildern, der ursprünglich von der TrackFormer-Methode für die Multi-Object-Tracking-Erkennung eingeführt wurde. Wir zeigen, dass Track-Queries, wenn sie mit einer ausreichend leistungsfähigen Architektur für die Bildsegmentierung kombiniert werden, beeindruckende Genauigkeit erzielen können, ohne auf kurze Videos beschränkt zu sein.