HyperAIHyperAI

Command Palette

Search for a command to run...

CuMo: Skalierung von multimodalen LLM durch Co-Upcycling eines Mischmodells von Experten

Jiachen Li Xinyao Wang Sijie Zhu Chia-Wen Kuo Lu Xu Fan Chen Jitesh Jain Humphrey Shi Longyin Wen

Zusammenfassung

Neuere Fortschritte bei multimodalen großen Sprachmodellen (LLMs) haben sich hauptsächlich auf das Skalieren konzentriert, indem die Datenmenge von Text-Bild-Paaren erhöht und die Leistungsfähigkeit der LLMs bei multimodalen Aufgaben verbessert wurde. Allerdings sind diese Skalierungsansätze rechenaufwendig und vernachlässigen die Bedeutung der Verbesserung der Modellfähigkeiten aus visueller Sicht. Inspiriert durch die erfolgreiche Anwendung von Expertenmischungen (Mixture-of-Experts, MoE) in LLMs, die während des Trainings die Skalierbarkeit des Modells verbessern, während die Inferenzkosten denen kleinerer Modelle ähnlich bleiben, schlagen wir CuMo vor. CuMo integriert Co-recycelte Top-K dünn-gesicherte Expertenmischungsblöcke sowohl in den visuellen Encoder als auch in den MLP-Connector, wodurch die multimodal LLMs mit minimalen zusätzlichen aktivierten Parametern während der Inferenz verbessert werden. CuMo trainiert zunächst die MLP-Blöcke und initialisiert dann jeden Experte im MoE-Block aus dem vortrainierten MLP-Block während der Stufe des visuellen Anweisungstunings. Nebenverluste (auxiliary losses) werden verwendet, um eine ausgewogene Belastung der Experten zu gewährleisten. CuMo übertrifft state-of-the-art multimodale LLMs bei verschiedenen VQA- und visuellen-Anweisungsfolge-Benchmarks unter Verwendung von Modellen in jeder Gruppe von Modellgrößen, wobei das Training ausschließlich auf Open-Source-Datensätzen erfolgt. Der Code und die Modellgewichte für CuMo sind Open Source unter https://github.com/SHI-Labs/CuMo.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp