SPHINX-X: Skalierung von Daten und Parametern für eine Familie mehrdimensionaler großer Sprachmodelle

Wir stellen SPHINX-X vor, eine umfassende Serie von Multimodalen Großen Sprachmodellen (MLLM), die auf SPHINX aufbaut. Um die Architektur und die Trainingseffizienz zu verbessern, modifizieren wir den SPHINX-Framework durch die Entfernung überflüssiger visueller Encoder, das Umgehen vollständig gepadder Sub-Bilder mittels Skip-Tokens sowie die Vereinfachung des mehrstufigen Trainings auf ein einstufiges All-in-One-Paradigma. Um das volle Potenzial von MLLMs auszuschöpfen, erstellen wir eine umfassende, mehrdomänen- und multimodale Datensammlung, die öffentlich verfügbare Ressourcen aus den Bereichen Sprache, Vision und Sprache-Vision-Aufgaben abdeckt. Diese Sammlung ergänzen wir zudem durch unsere eigenständig kuratierten OCR-intensiven und Set-of-Mark-Datensätze, was die Vielfalt und Allgemeingültigkeit erheblich erhöht. Durch das Training auf verschiedenen Basis-LLMs – darunter TinyLlama 1.1B, InternLM2-7B, LLaMA2-13B und Mixtral8x7B – erhalten wir eine Bandbreite an MLLMs, die sich in der Parameteranzahl und den multilingualen Fähigkeiten unterscheiden. Umfassende Benchmark-Tests zeigen eine starke Korrelation zwischen der multimodalen Leistung und den Skalen der Daten sowie der Parameter. Der Quellcode und die Modelle werden unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.