vor 10 Monaten

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Zusammenfassung

Neuere Fortschritte deuten darauf hin, dass eine Skalierung von Multimodalen Großen Sprachmodellen (MLLMs) die Leistung auf nachgeschalteten multimodalen Aufgaben effektiv verbessert. Der vorherrschende MLLM-Ansatz, beispielsweise LLaVA, transformiert visuelle Merkmale mittels eines statischen Vision-Sprache-Zuordnungsmoduls in textähnliche Token, wodurch statische Sprachmodelle durch visuelle Anweisungstuning die Fähigkeit erlangen, visuelle Informationen zu verstehen. Obwohl dieser Ansatz vielversprechend ist, kann die statische Tunning-Strategie~\footnote{Unter statischem Tunning versteht man ein Modell mit festen Parametern.}, die gleiche Parametermenge für verschiedene Aufgaben nutzt, die Leistung bei unterschiedlichen nachgeschalteten multimodalen Aufgaben einschränken. In Anbetracht dessen stellen wir HyperLLaVA vor, das eine adaptive Anpassung der Projektormodelle und der LLM-Parameter kombiniert mit einem dynamischen visuellen Experte und einem dynamischen Sprachexperten ermöglicht. Diese Experten werden mittels HyperNetworks generiert, die adaptive Parameterveränderungen durch visuelle und sprachliche Anleitung erzeugen und somit eine dynamische Modellierung des Projektors und des LLM in einem zweistufigen Trainingsprozess ermöglichen.Unsere Experimente zeigen, dass unsere Lösung LLaVA auf etablierten MLLM-Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, erheblich übertrifft. ~\footnote{Unser Projekt ist unter https://github.com/DCDmllm/HyperLLaVA verfügbar}.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Visuelle Fragebeantwortung

Multi-Task-Lernen

Transformer

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Visuelle Fragebeantwortung

Multi-Task-Lernen

Transformer

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HyperLLaVA: Dynamische visuelle und sprachliche Expertentuning für multimodale große Sprachmodelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang