vor 17 Tagen

End-to-End Video Instance Segmentation mit Transformers

Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

Abstract

Video-Instance-Segmentation (VIS) ist die Aufgabe, Objektinstanzen in einem Video gleichzeitig zu klassifizieren, zu segmentieren und zu verfolgen. Moderne Ansätze entwickeln hierfür typischerweise komplexe Pipelines. In diesem Beitrag stellen wir einen neuen Framework für die Video-Instance-Segmentation vor, der auf Transformers basiert und als VisTR bezeichnet wird. VisTR betrachtet die VIS-Aufgabe als direktes, end-to-end paralleles Sequenz-Decoding-/Vorhersageproblem. Gegeben ein Video-Clip aus mehreren Bildern als Eingabe, gibt VisTR direkt die Sequenz der Masken für jede Instanz im Video in der richtigen Reihenfolge aus. Im Kern steht eine neue, effektive Strategie zur Übereinstimmung und Segmentierung von Instanzsequenzen, die Instanzen auf Sequenzebene als Ganzes überwacht und segmentiert. VisTR fasst die Instanzsegmentierung und -verfolgung unter dem gleichen Gesichtspunkt der Ähnlichkeitslernung zusammen, wodurch die Gesamtpipeline erheblich vereinfacht wird und sich deutlich von bestehenden Ansätzen unterscheidet. Ohne zusätzliche Komplexitäten erreicht VisTR die höchste Geschwindigkeit unter allen bestehenden VIS-Modellen und erzielt die besten Ergebnisse bei Verwendung eines einzelnen Modells auf dem YouTube-VIS-Datensatz. Erstmals zeigen wir einen wesentlich einfacheren und schnelleren Framework für die Video-Instance-Segmentation, der auf Transformers basiert und eine konkurrenzfähige Genauigkeit erreicht. Wir hoffen, dass VisTR zukünftige Forschung zu weiteren Aufgaben im Bereich Video-Verständnis anregen wird.