HyperAIHyperAI
vor 2 Monaten

LLaVA-Schere: Token-Kompression mit semantisch verbundenen Komponenten für Video-LLMs

Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
LLaVA-Schere: Token-Kompression mit semantisch verbundenen Komponenten für
Video-LLMs
Abstract

In dieser Arbeit stellen wir LLaVA-Scissor vor, eine trainingsfreie Token-Kompressionsstrategie, die für videobasierte multimodale große Sprachmodelle entwickelt wurde. Vorherige Methoden versuchen in der Regel, Tokens basierend auf Aufmerksamkeitswerten zu komprimieren, scheitern jedoch daran, alle semantischen Bereiche effektiv zu erfassen und führen oft zu Token-Redundanz. Im Gegensatz dazu schlagen wir einen Ansatz mit Semantic Connected Components (SCC) vor, der Tokens verschiedenen semantischen Bereichen innerhalb des Token-Satzes zuordnet und so eine umfassende semantische Abdeckung gewährleistet. Das Ergebnis ist eine zweistufige räumlich-zeitliche Token-Kompressionsstrategie, die SCC sowohl im räumlichen als auch im zeitlichen Bereich nutzt. Diese Strategie kann Tokens effektiv komprimieren, indem sie das gesamte Video durch eine Menge nicht überlappender semantischer Tokens repräsentiert. Wir führen umfangreiche Evaluierungen der Token-Kompressionseigenschaften von LLaVA-Scissor anhand verschiedener Videoverstehens-Benchmarks durch, einschließlich Video-Fragebeantwortung, Verstehen langer Videos und umfassender Mehrfachauswahl-Benchmarks. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene LLaVA-Scissor andere Token-Kompressionsmethoden übertrifft und in verschiedenen Videoverstehens-Benchmarks insbesondere bei niedrigen Token-Retentionsraten überlegene Leistung erzielt. Projektseite: https://github.com/HumanMLLM/LLaVA-Scissor.

LLaVA-Schere: Token-Kompression mit semantisch verbundenen Komponenten für Video-LLMs | Neueste Forschungsarbeiten | HyperAI