vor 11 Tagen

Hinweis auf mehrere Modalitäten: Ein einheitlicher zeitlicher Transformer für die Video-Objektsegmentierung

Shilin Yan, Renrui Zhang, Ziyu Guo, Wenchao Chen, Wei Zhang, Hongyang Li, Yu Qiao, Hao Dong, Zhongjiang He, Peng Gao

Abstract

Kürzlich hat die Video-Objekt-Segmentierung (VOS), die auf multimodale Signale wie Sprache und Audio zurückgreift, sowohl in der Industrie als auch in der akademischen Forschung zunehmend Aufmerksamkeit erlangt. Die Herausforderung liegt darin, die semantische Ausrichtung innerhalb der Modalitäten sowie die visuelle Korrespondenz über Frames hinweg zu erforschen. Bisherige Ansätze verwenden jedoch getrennte Netzwerkarchitekturen für unterschiedliche Modalitäten und vernachlässigen die zeitliche Interaktion zwischen Frames unter Verwendung von Referenzen. In diesem Artikel stellen wir MUTR vor – einen Multi-modal Unified Temporal Transformer für die Referenzbasierte Video-Objekt-Segmentierung. Zum ersten Mal bietet MUTR mit einem einheitlichen Rahmenwerk einen DETR-artigen Transformer, der in der Lage ist, Video-Objekte zu segmentieren, die entweder durch Text- oder Audio-Referenzen angegeben werden. Insbesondere führen wir zwei Strategien ein, um die zeitlichen Beziehungen zwischen Videos und multimodalen Signalen umfassend auszunutzen. Erstens ermöglichen wir vor dem Transformer eine niedrigstufige zeitliche Aggregation, bei der die multimodalen Referenzen mehrskalige visuelle Hinweise aus aufeinanderfolgenden Videoframes erfassen können. Dadurch erhalten Text- oder Audio-Signale effektiv zeitliche Kenntnisse und die semantische Ausrichtung zwischen den Modalitäten wird verbessert. Zweitens führen wir auf höherer Ebene eine inter-frame-Feature-Kommunikation zwischen verschiedenen Objekt-Embeddings durch, was zu einer besseren objektbasierten Korrespondenz für die Verfolgung über den gesamten Videoverlauf hinweg beiträgt. Auf den Datensätzen Ref-YouTube-VOS und AVSBench, jeweils mit Text- und Audio-Referenzen, erreicht MUTR gegenüber den aktuellen State-of-the-Art-Methoden eine Verbesserung von +4,2 % und +8,7 % im J&F-Maß, was die Bedeutung unseres Ansatzes für die einheitliche multimodale VOS unterstreicht. Der Quellcode ist unter https://github.com/OpenGVLab/MUTR verfügbar.