HyperAIHyperAI

Command Palette

Search for a command to run...

Elysium: Objektbasierte Wahrnehmung in Videos durch MLLM erforschen

Han Wang Yanjie Wang Yongjie Ye Yuxiang Nie Can Huang

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben ihre Fähigkeit gezeigt, Objekte in stehenden Bildern wahrzunehmen. Ihre Anwendung bei videobezogenen Aufgaben, wie z.B. der Objektverfolgung, ist jedoch noch wenig erforscht. Dieses mangelnde Interesse an der Forschung ist hauptsächlich auf zwei wesentliche Herausforderungen zurückzuführen. Erstens wird eine umfangreiche Vortrainingsphase auf großen Video-Datensätzen benötigt, um den MLLMs die Fähigkeit zu verleihen, Objekte über mehrere Frames hinweg wahrzunehmen und zwischenframesche Beziehungen zu verstehen. Zweitens kann die Verarbeitung einer großen Anzahl von Frames innerhalb des Kontextfensters großer Sprachmodelle (LLMs) einen erheblichen Rechenaufwand darstellen. Um die erste Herausforderung anzugehen, stellen wir ElysiumTrack-1M vor, einen groß angelegten Videodatensatz, der für drei Aufgaben unterstützt wird: Einzelobjektverfolgung (SOT), Referenz-Einzelobjektverfolgung (RSOT) und Generierung von Video-referierenden Ausdrücken (Video-REG). ElysiumTrack-1M enthält 1,27 Millionen annotierte Videoframes mit entsprechenden Objektkästen und Beschreibungen. Unter Nutzung dieses Datensatzes führen wir das Training von MLLMs durch und schlagen ein Token-Kompressionsmodell T-Selector vor, um die zweite Herausforderung zu bewältigen. Unser vorgeschlagener Ansatz, Elysium: Exploring Object-level Perception in Videos via MLLM (Elysium: Untersuchung der objektorientierten Wahrnehmung in Videos mittels MLLMs), ist ein end-to-end trainierbares MLLM, das versucht, objektorientierte Aufgaben in Videos ohne zusätzliche Plugins oder Expertenmodelle durchzuführen. Alle Codes und Datensätze sind unter https://github.com/Hon-Wong/Elysium verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp