HyperAIHyperAI

Command Palette

Search for a command to run...

SeqFormer: Sequential Transformer für die Video-Instanzsegmentierung

Junfeng Wu Yi Jiang Song Bai Wenqing Zhang Xiang Bai

Zusammenfassung

In dieser Arbeit präsentieren wir SeqFormer für die Video-Instanzsegmentierung. SeqFormer folgt dem Prinzip des Vision Transformers, indem er Beziehungen zwischen Instanzen über mehrere Videoframes modelliert. Dennoch stellen wir fest, dass eine eigenständige Instanzabfrage ausreicht, um eine zeitliche Sequenz von Instanzen in einem Video zu erfassen, wobei die Aufmerksamkeitsmechanismen jedoch jeweils unabhängig für jeden Frame durchgeführt werden müssen. Um dies zu erreichen, lokalisiert SeqFormer in jedem Frame eine Instanz und aggregiert zeitliche Informationen, um eine leistungsfähige Darstellung der gesamten Videoinstanz zu erlernen, die dann dynamisch zur Vorhersage der Maskensequenzen in jedem Frame verwendet wird. Die Instanzverfolgung ergibt sich naturgemäß ohne separate Verfolgungszweige oder Nachbearbeitungsschritte. Auf YouTube-VIS erreicht SeqFormer eine AP von 47,4 mit einem ResNet-50-Backbone und 49,0 AP mit einem ResNet-101-Backbone, ohne zusätzliche Optimierungen. Diese Leistung übertrifft die vorherige State-of-the-Art-Leistung jeweils um 4,6 und 4,4. Zudem erreicht SeqFormer mit der kürzlich vorgeschlagenen Swin-Transformer-Architektur eine erheblich höhere AP von 59,3. Wir hoffen, dass SeqFormer eine starke Basis für zukünftige Forschung in der Video-Instanzsegmentierung darstellt und gleichzeitig diesen Bereich durch ein robusteres, genauereres und eleganteres Modell voranbringt. Der Quellcode ist unter https://github.com/wjf5203/SeqFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SeqFormer: Sequential Transformer für die Video-Instanzsegmentierung | Paper | HyperAI