Command Palette
Search for a command to run...
HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle
HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle
Zusammenfassung
Neuere Fortschritte deuten darauf hin, dass eine Skalierung von Multimodalen Großen Sprachmodellen (MLLMs) die Leistung auf nachgeschalteten multimodalen Aufgaben effektiv verbessert. Der vorherrschende MLLM-Ansatz, beispielsweise LLaVA, transformiert visuelle Merkmale mittels eines statischen Vision-Sprache-Zuordnungsmoduls in textähnliche Token, wodurch statische Sprachmodelle durch visuelle Anweisungstuning die Fähigkeit erlangen, visuelle Informationen zu verstehen. Obwohl dieser Ansatz vielversprechend ist, kann die statische Tunning-Strategie~\footnote{Unter statischem Tunning versteht man ein Modell mit festen Parametern.}, die gleiche Parametermenge für verschiedene Aufgaben nutzt, die Leistung bei unterschiedlichen nachgeschalteten multimodalen Aufgaben einschränken. In Anbetracht dessen stellen wir HyperLLaVA vor, das eine adaptive Anpassung der Projektormodelle und der LLM-Parameter kombiniert mit einem dynamischen visuellen Experte und einem dynamischen Sprachexperten ermöglicht. Diese Experten werden mittels HyperNetworks generiert, die adaptive Parameterveränderungen durch visuelle und sprachliche Anleitung erzeugen und somit eine dynamische Modellierung des Projektors und des LLM in einem zweistufigen Trainingsprozess ermöglichen.Unsere Experimente zeigen, dass unsere Lösung LLaVA auf etablierten MLLM-Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, erheblich übertrifft. ~\footnote{Unser Projekt ist unter https://github.com/DCDmllm/HyperLLaVA verfügbar}.