vor 2 Monaten

Elysium: Objektbasierte Wahrnehmung in Videos durch MLLM erforschen

Han Wang; Yanjie Wang; Yongjie Ye; Yuxiang Nie; Can Huang

Abstract

Multimodale große Sprachmodelle (MLLMs) haben ihre Fähigkeit gezeigt, Objekte in stehenden Bildern wahrzunehmen. Ihre Anwendung bei videobezogenen Aufgaben, wie z.B. der Objektverfolgung, ist jedoch noch wenig erforscht. Dieses mangelnde Interesse an der Forschung ist hauptsächlich auf zwei wesentliche Herausforderungen zurückzuführen. Erstens wird eine umfangreiche Vortrainingsphase auf großen Video-Datensätzen benötigt, um den MLLMs die Fähigkeit zu verleihen, Objekte über mehrere Frames hinweg wahrzunehmen und zwischenframesche Beziehungen zu verstehen. Zweitens kann die Verarbeitung einer großen Anzahl von Frames innerhalb des Kontextfensters großer Sprachmodelle (LLMs) einen erheblichen Rechenaufwand darstellen. Um die erste Herausforderung anzugehen, stellen wir ElysiumTrack-1M vor, einen groß angelegten Videodatensatz, der für drei Aufgaben unterstützt wird: Einzelobjektverfolgung (SOT), Referenz-Einzelobjektverfolgung (RSOT) und Generierung von Video-referierenden Ausdrücken (Video-REG). ElysiumTrack-1M enthält 1,27 Millionen annotierte Videoframes mit entsprechenden Objektkästen und Beschreibungen. Unter Nutzung dieses Datensatzes führen wir das Training von MLLMs durch und schlagen ein Token-Kompressionsmodell T-Selector vor, um die zweite Herausforderung zu bewältigen. Unser vorgeschlagener Ansatz, Elysium: Exploring Object-level Perception in Videos via MLLM (Elysium: Untersuchung der objektorientierten Wahrnehmung in Videos mittels MLLMs), ist ein end-to-end trainierbares MLLM, das versucht, objektorientierte Aufgaben in Videos ohne zusätzliche Plugins oder Expertenmodelle durchzuführen. Alle Codes und Datensätze sind unter https://github.com/Hon-Wong/Elysium verfügbar.