HyperAIHyperAI

Command Palette

Search for a command to run...

ViLLa: Video-Segmentierung durch großmaschige Sprachmodelle

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

Zusammenfassung

Kürzliche Bemühungen im Bereich der Video-Verarbeitung und Segmentierung (VRS) integrieren große Sprachmodelle (LLMs) mit Wahrnehmungsmodellen, um Objekte durch textbasierte Anweisungen zu lokalisieren und zu verfolgen. In einfachen Szenarien erzielen diese Ansätze kaum zufriedenstellende Ergebnisse. Allerdings gerieten sie in komplexeren, realweltlichen Szenen, die durch längere Dauer, mehrere Objekte, schnelle Bewegungen und starke Verdeckungen gekennzeichnet sind, in Schwierigkeiten bei der Unterscheidung und Ableitung der Objekte aus Benutzeranfragen. In dieser Arbeit analysieren wir die zugrunde liegenden Ursachen dieser Einschränkungen und präsentieren ViLLa: Video-Verarbeitung und Segmentierung mit großen Sprachmodellen. Bemerkenswerterweise gelingt es unserem ViLLa, diese Herausforderungen durch mehrere Kerninnovationen zu bewältigen: (1) einen Kontextsynthesizer, der den Benutzerintent dynamisch mit Video-Kontexten kodiert, um genaue Schlussfolgerungen zu ziehen und Ambiguitäten in komplexen Anfragen aufzulösen; (2) einen hierarchischen zeitlichen Synchronisator, der Multi-Objekt-Interaktionen über komplexe zeitliche Szenarien hinweg entflechtet, indem er diese Interaktionen auf lokalen und globalen zeitlichen Skalen modelliert. Um eine effiziente Verarbeitung langer Videos zu ermöglichen, integriert ViLLa außerdem (3) einen Schlüsselsegmentsampler, der lange Videos in kürzere, aber semantisch dichte Segmente unterteilt, um Redundanz zu reduzieren. Darüber hinaus fördern wir die Forschung in diesem bisher wenig erforschten Bereich dadurch, dass wir eine VRS-Benchmark erstellen: VideoReasonSeg, die verschiedene komplexe Szenarien umfasst. Unser Modell zeigt beeindruckende Stand-des-Wissens-Ergebnisse sowohl auf VideoReasonSeg als auch auf Ref-YouTube-VOS, Ref-DAVIS17, MeViS und ReVOS. Quantitative und qualitative Experimente belegen, dass unsere Methode die Fähigkeiten zur Video-Verarbeitung und Segmentierung für multimodale LLMs effektiv verbessert. Der Code und das Datensatz werden unter https://github.com/rkzheng99/ViLLa verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViLLa: Video-Segmentierung durch großmaschige Sprachmodelle | Paper | HyperAI