HyperAIHyperAI

Command Palette

Search for a command to run...

Hinweis auf mehrere Modalitäten: Ein einheitlicher zeitlicher Transformer für die Video-Objektsegmentierung

Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao

Zusammenfassung

Kürzlich hat die Video-Objekt-Segmentierung (VOS), die auf multimodale Signale wie Sprache und Audio zurückgreift, sowohl in der Industrie als auch in der akademischen Forschung zunehmend Aufmerksamkeit erlangt. Die Herausforderung liegt darin, die semantische Ausrichtung innerhalb der Modalitäten sowie die visuelle Korrespondenz über Frames hinweg zu erforschen. Bisherige Ansätze verwenden jedoch getrennte Netzwerkarchitekturen für unterschiedliche Modalitäten und vernachlässigen die zeitliche Interaktion zwischen Frames unter Verwendung von Referenzen. In diesem Artikel stellen wir MUTR vor – einen Multi-modal Unified Temporal Transformer für die Referenzbasierte Video-Objekt-Segmentierung. Zum ersten Mal bietet MUTR mit einem einheitlichen Rahmenwerk einen DETR-artigen Transformer, der in der Lage ist, Video-Objekte zu segmentieren, die entweder durch Text- oder Audio-Referenzen angegeben werden. Insbesondere führen wir zwei Strategien ein, um die zeitlichen Beziehungen zwischen Videos und multimodalen Signalen umfassend auszunutzen. Erstens ermöglichen wir vor dem Transformer eine niedrigstufige zeitliche Aggregation, bei der die multimodalen Referenzen mehrskalige visuelle Hinweise aus aufeinanderfolgenden Videoframes erfassen können. Dadurch erhalten Text- oder Audio-Signale effektiv zeitliche Kenntnisse und die semantische Ausrichtung zwischen den Modalitäten wird verbessert. Zweitens führen wir auf höherer Ebene eine inter-frame-Feature-Kommunikation zwischen verschiedenen Objekt-Embeddings durch, was zu einer besseren objektbasierten Korrespondenz für die Verfolgung über den gesamten Videoverlauf hinweg beiträgt. Auf den Datensätzen Ref-YouTube-VOS und AVSBench, jeweils mit Text- und Audio-Referenzen, erreicht MUTR gegenüber den aktuellen State-of-the-Art-Methoden eine Verbesserung von +4,2 % und +8,7 % im J&F-Maß, was die Bedeutung unseres Ansatzes für die einheitliche multimodale VOS unterstreicht. Der Quellcode ist unter https://github.com/OpenGVLab/MUTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp