HyperAIHyperAI

Command Palette

Search for a command to run...

Temporally Effizienter Vision Transformer für die Video-Instanzsegmentierung

Shusheng Yang Xinggang Wang Yu Li Yuxin Fang Jiemin Fang Wenyu Liu Xun Zhao Ying Shan

Zusammenfassung

Kürzlich hat der Vision Transformer erheblichen Erfolg bei Aufgaben der bildweisen visuellen Erkennung erzielt. Um die entscheidenden zeitlichen Informationen innerhalb eines Videoclip effektiv und effizient zu modellieren, stellen wir einen temporally efficient Vision Transformer (TeViT) für die Video-Instance-Segmentation (VIS) vor. Im Gegensatz zu früheren transformerbasierten Ansätzen für VIS ist TeViT nahezu convolutionfrei und besteht aus einem Transformer-Backbone sowie einem abfragbasierten Head für die Video-Instance-Segmentation. Im Backbone-Phase führen wir eine nahezu parameterfreie Nachrichtenverschiebungs-Mechanismus zur frühen Fusion zeitlicher Kontextinformationen ein. In den Head-Phasen schlagen wir eine parametergeteilte spatiotemporale Abfragewechselwirkung vor, um die ein-zu-eins-Beziehung zwischen Video-Instanzen und Abfragen herzustellen. Dadurch nutzt TeViT sowohl framebasierte als auch instanzbasierte zeitliche Kontextinformationen vollständig und erreicht eine starke zeitliche Modellierungskapazität mit vernachlässigbarem zusätzlichen Rechenaufwand. Auf drei weit verbreiteten VIS-Benchmark-Datensätzen – YouTube-VIS-2019, YouTube-VIS-2021 und OVIS – erzielt TeViT state-of-the-art Ergebnisse und behält eine hohe Inferenzgeschwindigkeit bei, beispielsweise 46,6 AP bei 68,9 FPS auf YouTube-VIS-2019. Der Quellcode ist unter https://github.com/hustvl/TeViT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp