HyperAI
vor 2 Tagen

Wenn Tokens zu viel sprechen: Eine Übersicht über die multimodale Langzeit-Token-Kompression in Bildern, Videos und Audios

Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
Wenn Tokens zu viel sprechen: Eine Übersicht über die multimodale Langzeit-Token-Kompression in Bildern, Videos und Audios
Abstract

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte gemacht, hauptsächlich aufgrund ihrer Fähigkeit, zunehmend längere und komplexere Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, erweiterte Videosequenzen und lange Audioeingaben. Obwohl diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie zu erheblichen rechnerischen Herausforderungen, insbesondere aufgrund der quadratischen Komplexität der Selbst-Attention-Mechanismen bei einer großen Anzahl von Eingabetoken. Um diese Engpässe zu verringern, hat die Token-Kompression sich als vielversprechende und entscheidende Methode etabliert, die effizient die Anzahl der Tokens während des Trainings und der Inferenz reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Zusammenfassung des sich rasch entwickelnden Forschungsfeldes der Token-Kompression für multimodale lange Kontexte.Wir erkennen, dass effektive Kompressionsstrategien eng mit den spezifischen Eigenschaften und Redundanzen jedes Modus verbunden sind. Daher klassifizieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugriff auf Methoden zu ermöglichen, die auf ihre spezifischen Interessensbereiche abgestimmt sind: (1) bildorientierte Kompression, die sich mit der räumlichen Redundanz in visuellen Daten beschäftigt; (2) videoorientierte Kompression, die sich mit der räumlich-zeitlichen Redundanz in dynamischen Sequenzen auseinandersetzt; und (3) audioorientierte Kompression, die sich mit der zeitlichen und spektralen Redundanz in akustischen Signalen beschäftigt. Neben dieser modusbasierten Klassifizierung analysieren wir die Methoden auch nach ihren zugrunde liegenden Mechanismen, darunter Transformation-basierte, Ähnlichkeits-basierte, Attention-basierte und Query-basierte Ansätze.Durch die Bereitstellung einer umfassenden und strukturierten Übersicht verfolgt diese Arbeit das Ziel, den aktuellen Stand der Forschung zu zusammenzufassen, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich rasch entwickelnden Bereich zu inspirieren. Zudem betreiben wir ein öffentliches Repository, um kontinuierlich die neuesten Fortschritte in diesem vielversprechenden Bereich zu verfolgen und zu aktualisieren.