HyperAIHyperAI

Command Palette

Search for a command to run...

HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle

Zusammenfassung

Neuere Fortschritte deuten darauf hin, dass eine Skalierung von Multimodalen Großen Sprachmodellen (MLLMs) die Leistung auf nachgeschalteten multimodalen Aufgaben effektiv verbessert. Der vorherrschende MLLM-Ansatz, beispielsweise LLaVA, transformiert visuelle Merkmale mittels eines statischen Vision-Sprache-Zuordnungsmoduls in textähnliche Token, wodurch statische Sprachmodelle durch visuelle Anweisungstuning die Fähigkeit erlangen, visuelle Informationen zu verstehen. Obwohl dieser Ansatz vielversprechend ist, kann die statische Tunning-Strategie~\footnote{Unter statischem Tunning versteht man ein Modell mit festen Parametern.}, die gleiche Parametermenge für verschiedene Aufgaben nutzt, die Leistung bei unterschiedlichen nachgeschalteten multimodalen Aufgaben einschränken. In Anbetracht dessen stellen wir HyperLLaVA vor, das eine adaptive Anpassung der Projektormodelle und der LLM-Parameter kombiniert mit einem dynamischen visuellen Experte und einem dynamischen Sprachexperten ermöglicht. Diese Experten werden mittels HyperNetworks generiert, die adaptive Parameterveränderungen durch visuelle und sprachliche Anleitung erzeugen und somit eine dynamische Modellierung des Projektors und des LLM in einem zweistufigen Trainingsprozess ermöglichen.Unsere Experimente zeigen, dass unsere Lösung LLaVA auf etablierten MLLM-Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, erheblich übertrifft. ~\footnote{Unser Projekt ist unter https://github.com/DCDmllm/HyperLLaVA verfügbar}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp