vor 17 Tagen

SeqFormer: Sequential Transformer für die Video-Instanzsegmentierung

Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai

Abstract

In dieser Arbeit präsentieren wir SeqFormer für die Video-Instanzsegmentierung. SeqFormer folgt dem Prinzip des Vision Transformers, indem er Beziehungen zwischen Instanzen über mehrere Videoframes modelliert. Dennoch stellen wir fest, dass eine eigenständige Instanzabfrage ausreicht, um eine zeitliche Sequenz von Instanzen in einem Video zu erfassen, wobei die Aufmerksamkeitsmechanismen jedoch jeweils unabhängig für jeden Frame durchgeführt werden müssen. Um dies zu erreichen, lokalisiert SeqFormer in jedem Frame eine Instanz und aggregiert zeitliche Informationen, um eine leistungsfähige Darstellung der gesamten Videoinstanz zu erlernen, die dann dynamisch zur Vorhersage der Maskensequenzen in jedem Frame verwendet wird. Die Instanzverfolgung ergibt sich naturgemäß ohne separate Verfolgungszweige oder Nachbearbeitungsschritte. Auf YouTube-VIS erreicht SeqFormer eine AP von 47,4 mit einem ResNet-50-Backbone und 49,0 AP mit einem ResNet-101-Backbone, ohne zusätzliche Optimierungen. Diese Leistung übertrifft die vorherige State-of-the-Art-Leistung jeweils um 4,6 und 4,4. Zudem erreicht SeqFormer mit der kürzlich vorgeschlagenen Swin-Transformer-Architektur eine erheblich höhere AP von 59,3. Wir hoffen, dass SeqFormer eine starke Basis für zukünftige Forschung in der Video-Instanzsegmentierung darstellt und gleichzeitig diesen Bereich durch ein robusteres, genauereres und eleganteres Modell voranbringt. Der Quellcode ist unter https://github.com/wjf5203/SeqFormer verfügbar.