Command Palette
Search for a command to run...
Dynamic-LLaVA: Effiziente multimodale große Sprachmodelle durch dynamische Sparsifizierung von visuell-sprachlichen Kontexten
Dynamic-LLaVA: Effiziente multimodale große Sprachmodelle durch dynamische Sparsifizierung von visuell-sprachlichen Kontexten
Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben beachtliche Erfolge in der visuellen Wahrnehmung, dem Schlussfolgern und der Interaktion erzielt. Allerdings steigen während des Decoding-Prozesses die Rechenanforderungen und der Speicherverbrauch progressiv mit der Generierung von Ausgabetokens, was direkt die Effizienz von MLLMs beeinträchtigt. Bestehende Ansätze versuchen, die Redundanz des visuellen Kontexts zu verringern, um effiziente MLLMs zu erreichen. Leider nimmt der Effizienzgewinn durch die Reduktion des visuellen Kontexts im Prefill-Stadium während des Decoding-Stadiums allmählich ab. Um dieses Problem anzugehen, stellen wir einen dynamischen Rahmen zur Sparsifizierung von visuell-sprachlichem Kontext vor: Dynamic-LLaVA. Dieser reduziert dynamisch die Redundanz des visuellen Kontexts im Prefill-Stadium und verringert gleichzeitig die Speicher- und Rechenlast des generierten sprachlichen Kontexts während des Decoding. Dynamic-LLaVA entwickelt eine maßgeschneiderte Sparsifizierungs-Inferenzstrategie für unterschiedliche Inferenzmodi – nämlich Prefill, Decoding mit und ohne KV-Cache –, um eine effiziente Inferenz von MLLMs zu ermöglichen. In der Praxis kann Dynamic-LLaVA die Rechenlast im Prefill-Stadium um ca. 75 % reduzieren. Gleichzeitig verringert Dynamic-LLaVA während des gesamten Generierungsprozesses die Rechenlast um ca. 50 % im Decoding ohne KV-Cache und spart bei Verwendung des KV-Caches ca. 50 % an GPU-Speicherüberhead dank der Sparsifizierung von visuell-sprachlichem Kontext. Umfangreiche Experimente zeigen zudem, dass Dynamic-LLaVA eine effiziente Inferenz für MLLMs ermöglicht, wobei die Fähigkeit zur Wahrnehmung und Generierung nahezu unverändert bleibt oder sogar gegenüber den Baselines mit vollständigem Kontext verbessert wird. Der Quellcode ist unter https://github.com/Osilly/dynamic_llava verfügbar.