HyperAIHyperAI
vor 2 Monaten

VISA: Video-Objekt-Segmentierung durch große Sprachmodelle

Cilin Yan; Haochen Wang; Shilin Yan; Xiaolong Jiang; Yao Hu; Guoliang Kang; Weidi Xie; Efstratios Gavves
VISA: Video-Objekt-Segmentierung durch große Sprachmodelle
Abstract

Bestehende Video-Objekt-Segmentation (VOS) basiert auf expliziten Benutzeranweisungen, wie Kategorien, Masken oder kurzen Phrasen, was ihre Fähigkeit einschränkt, komplexe Video-Segmentierungen durchzuführen, die eine Schlussfolgerung mit Weltwissen erfordern. In dieser Arbeit stellen wir eine neue Aufgabe vor: die schließerische Video-Objekt-Segmentation (ReasonVOS). Diese Aufgabe zielt darauf ab, eine Folge von Segmentationsmasken in Reaktion auf implizite Textabfragen zu generieren, die auf komplexen Schlussfolgerungsfähigkeiten basieren und sowohl Weltwissen als auch Videokontexte berücksichtigen. Dies ist entscheidend für das strukturierte Umfeldverstehen und objektorientierte Interaktionen, welche im Entwicklungsprozess von verkörperten KI-Systemen (embodied AI) von zentraler Bedeutung sind.Um ReasonVOS anzugehen, führen wir VISA (video-basierte große sprachliche Anweisungs-Segmentierungsassistent) ein. VISA nutzt die Weltwissensschlussfolgerungsfähigkeiten multimodaler Sprachmodelle (LLMs) und verfügt gleichzeitig über die Fähigkeit, Objekte in Videos mit einem Maskendekoder zu segmentieren und zu verfolgen. Darüber hinaus legen wir einen umfassenden Benchmark an, der aus 35.074 Anweisungs-Masken-Folgenpaaren aus 1.042 diversen Videos besteht. Dieser Benchmark integriert komplexe Weltwissensschlussfolgerungen in Segmentierungsaufgaben und dient sowohl der Anweisungstuning als auch der Evaluierung von ReasonVOS-Modellen.Experimente anhand von 8 Datensätzen zeigen die Effektivität von VISA bei der Bewältigung komplexer schließerischer Segmentierungsaufgaben sowie bei einfachen referentiellen Segmentierungsaufgaben sowohl im Video- als auch im Bildbereich. Der Code und der Datensatz sind unter https://github.com/cilinyan/VISA verfügbar.

VISA: Video-Objekt-Segmentierung durch große Sprachmodelle | Neueste Forschungsarbeiten | HyperAI