HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Tokens zu viel sprechen: Eine Übersicht über die multimodale Langzeit-Token-Kompression in Bildern, Videos und Audios

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte gemacht, hauptsächlich aufgrund ihrer Fähigkeit, zunehmend längere und komplexere Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, erweiterte Videosequenzen und lange Audioeingaben. Obwohl diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie zu erheblichen rechnerischen Herausforderungen, insbesondere aufgrund der quadratischen Komplexität der Selbst-Attention-Mechanismen bei einer großen Anzahl von Eingabetoken. Um diese Engpässe zu verringern, hat die Token-Kompression sich als vielversprechende und entscheidende Methode etabliert, die effizient die Anzahl der Tokens während des Trainings und der Inferenz reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Zusammenfassung des sich rasch entwickelnden Forschungsfeldes der Token-Kompression für multimodale lange Kontexte.Wir erkennen, dass effektive Kompressionsstrategien eng mit den spezifischen Eigenschaften und Redundanzen jedes Modus verbunden sind. Daher klassifizieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugriff auf Methoden zu ermöglichen, die auf ihre spezifischen Interessensbereiche abgestimmt sind: (1) bildorientierte Kompression, die sich mit der räumlichen Redundanz in visuellen Daten beschäftigt; (2) videoorientierte Kompression, die sich mit der räumlich-zeitlichen Redundanz in dynamischen Sequenzen auseinandersetzt; und (3) audioorientierte Kompression, die sich mit der zeitlichen und spektralen Redundanz in akustischen Signalen beschäftigt. Neben dieser modusbasierten Klassifizierung analysieren wir die Methoden auch nach ihren zugrunde liegenden Mechanismen, darunter Transformation-basierte, Ähnlichkeits-basierte, Attention-basierte und Query-basierte Ansätze.Durch die Bereitstellung einer umfassenden und strukturierten Übersicht verfolgt diese Arbeit das Ziel, den aktuellen Stand der Forschung zu zusammenzufassen, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich rasch entwickelnden Bereich zu inspirieren. Zudem betreiben wir ein öffentliches Repository, um kontinuierlich die neuesten Fortschritte in diesem vielversprechenden Bereich zu verfolgen und zu aktualisieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wenn Tokens zu viel sprechen: Eine Übersicht über die multimodale Langzeit-Token-Kompression in Bildern, Videos und Audios | Paper | HyperAI