CuMo: Skalierung von multimodalen LLM durch Co-Upcycling eines Mischmodells von Experten

Neuere Fortschritte bei multimodalen großen Sprachmodellen (LLMs) haben sich hauptsächlich auf das Skalieren konzentriert, indem die Datenmenge von Text-Bild-Paaren erhöht und die Leistungsfähigkeit der LLMs bei multimodalen Aufgaben verbessert wurde. Allerdings sind diese Skalierungsansätze rechenaufwendig und vernachlässigen die Bedeutung der Verbesserung der Modellfähigkeiten aus visueller Sicht. Inspiriert durch die erfolgreiche Anwendung von Expertenmischungen (Mixture-of-Experts, MoE) in LLMs, die während des Trainings die Skalierbarkeit des Modells verbessern, während die Inferenzkosten denen kleinerer Modelle ähnlich bleiben, schlagen wir CuMo vor. CuMo integriert Co-recycelte Top-K dünn-gesicherte Expertenmischungsblöcke sowohl in den visuellen Encoder als auch in den MLP-Connector, wodurch die multimodal LLMs mit minimalen zusätzlichen aktivierten Parametern während der Inferenz verbessert werden. CuMo trainiert zunächst die MLP-Blöcke und initialisiert dann jeden Experte im MoE-Block aus dem vortrainierten MLP-Block während der Stufe des visuellen Anweisungstunings. Nebenverluste (auxiliary losses) werden verwendet, um eine ausgewogene Belastung der Experten zu gewährleisten. CuMo übertrifft state-of-the-art multimodale LLMs bei verschiedenen VQA- und visuellen-Anweisungsfolge-Benchmarks unter Verwendung von Modellen in jeder Gruppe von Modellgrößen, wobei das Training ausschließlich auf Open-Source-Datensätzen erfolgt. Der Code und die Modellgewichte für CuMo sind Open Source unter https://github.com/SHI-Labs/CuMo.