vor 2 Monaten

ViLLa: Video-Segmentierung durch großmaschige Sprachmodelle

Rongkun Zheng; Lu Qi; Xi Chen; Yi Wang; Kun Wang; Yu Qiao; Hengshuang Zhao

Abstract

Kürzliche Bemühungen im Bereich der Video-Verarbeitung und Segmentierung (VRS) integrieren große Sprachmodelle (LLMs) mit Wahrnehmungsmodellen, um Objekte durch textbasierte Anweisungen zu lokalisieren und zu verfolgen. In einfachen Szenarien erzielen diese Ansätze kaum zufriedenstellende Ergebnisse. Allerdings gerieten sie in komplexeren, realweltlichen Szenen, die durch längere Dauer, mehrere Objekte, schnelle Bewegungen und starke Verdeckungen gekennzeichnet sind, in Schwierigkeiten bei der Unterscheidung und Ableitung der Objekte aus Benutzeranfragen. In dieser Arbeit analysieren wir die zugrunde liegenden Ursachen dieser Einschränkungen und präsentieren ViLLa: Video-Verarbeitung und Segmentierung mit großen Sprachmodellen. Bemerkenswerterweise gelingt es unserem ViLLa, diese Herausforderungen durch mehrere Kerninnovationen zu bewältigen: (1) einen Kontextsynthesizer, der den Benutzerintent dynamisch mit Video-Kontexten kodiert, um genaue Schlussfolgerungen zu ziehen und Ambiguitäten in komplexen Anfragen aufzulösen; (2) einen hierarchischen zeitlichen Synchronisator, der Multi-Objekt-Interaktionen über komplexe zeitliche Szenarien hinweg entflechtet, indem er diese Interaktionen auf lokalen und globalen zeitlichen Skalen modelliert. Um eine effiziente Verarbeitung langer Videos zu ermöglichen, integriert ViLLa außerdem (3) einen Schlüsselsegmentsampler, der lange Videos in kürzere, aber semantisch dichte Segmente unterteilt, um Redundanz zu reduzieren. Darüber hinaus fördern wir die Forschung in diesem bisher wenig erforschten Bereich dadurch, dass wir eine VRS-Benchmark erstellen: VideoReasonSeg, die verschiedene komplexe Szenarien umfasst. Unser Modell zeigt beeindruckende Stand-des-Wissens-Ergebnisse sowohl auf VideoReasonSeg als auch auf Ref-YouTube-VOS, Ref-DAVIS17, MeViS und ReVOS. Quantitative und qualitative Experimente belegen, dass unsere Methode die Fähigkeiten zur Video-Verarbeitung und Segmentierung für multimodale LLMs effektiv verbessert. Der Code und das Datensatz werden unter https://github.com/rkzheng99/ViLLa verfügbar sein.