HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamic-LLaVA: Effiziente multimodale große Sprachmodelle durch dynamische Sparsifizierung von visuell-sprachlichen Kontexten

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben beachtliche Erfolge in der visuellen Wahrnehmung, dem Schlussfolgern und der Interaktion erzielt. Allerdings steigen während des Decoding-Prozesses die Rechenanforderungen und der Speicherverbrauch progressiv mit der Generierung von Ausgabetokens, was direkt die Effizienz von MLLMs beeinträchtigt. Bestehende Ansätze versuchen, die Redundanz des visuellen Kontexts zu verringern, um effiziente MLLMs zu erreichen. Leider nimmt der Effizienzgewinn durch die Reduktion des visuellen Kontexts im Prefill-Stadium während des Decoding-Stadiums allmählich ab. Um dieses Problem anzugehen, stellen wir einen dynamischen Rahmen zur Sparsifizierung von visuell-sprachlichem Kontext vor: Dynamic-LLaVA. Dieser reduziert dynamisch die Redundanz des visuellen Kontexts im Prefill-Stadium und verringert gleichzeitig die Speicher- und Rechenlast des generierten sprachlichen Kontexts während des Decoding. Dynamic-LLaVA entwickelt eine maßgeschneiderte Sparsifizierungs-Inferenzstrategie für unterschiedliche Inferenzmodi – nämlich Prefill, Decoding mit und ohne KV-Cache –, um eine effiziente Inferenz von MLLMs zu ermöglichen. In der Praxis kann Dynamic-LLaVA die Rechenlast im Prefill-Stadium um ca. 75 % reduzieren. Gleichzeitig verringert Dynamic-LLaVA während des gesamten Generierungsprozesses die Rechenlast um ca. 50 % im Decoding ohne KV-Cache und spart bei Verwendung des KV-Caches ca. 50 % an GPU-Speicherüberhead dank der Sparsifizierung von visuell-sprachlichem Kontext. Umfangreiche Experimente zeigen zudem, dass Dynamic-LLaVA eine effiziente Inferenz für MLLMs ermöglicht, wobei die Fähigkeit zur Wahrnehmung und Generierung nahezu unverändert bleibt oder sogar gegenüber den Baselines mit vollständigem Kontext verbessert wird. Der Quellcode ist unter https://github.com/Osilly/dynamic_llava verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dynamic-LLaVA: Effiziente multimodale große Sprachmodelle durch dynamische Sparsifizierung von visuell-sprachlichen Kontexten | Paper | HyperAI