HyperAIHyperAI
vor 9 Tagen

SPHINX-X: Skalierung von Daten und Parametern für eine Familie mehrdimensionaler großer Sprachmodelle

Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao
SPHINX-X: Skalierung von Daten und Parametern für eine Familie mehrdimensionaler großer Sprachmodelle
Abstract

Wir stellen SPHINX-X vor, eine umfassende Serie von Multimodalen Großen Sprachmodellen (MLLM), die auf SPHINX aufbaut. Um die Architektur und die Trainingseffizienz zu verbessern, modifizieren wir den SPHINX-Framework durch die Entfernung überflüssiger visueller Encoder, das Umgehen vollständig gepadder Sub-Bilder mittels Skip-Tokens sowie die Vereinfachung des mehrstufigen Trainings auf ein einstufiges All-in-One-Paradigma. Um das volle Potenzial von MLLMs auszuschöpfen, erstellen wir eine umfassende, mehrdomänen- und multimodale Datensammlung, die öffentlich verfügbare Ressourcen aus den Bereichen Sprache, Vision und Sprache-Vision-Aufgaben abdeckt. Diese Sammlung ergänzen wir zudem durch unsere eigenständig kuratierten OCR-intensiven und Set-of-Mark-Datensätze, was die Vielfalt und Allgemeingültigkeit erheblich erhöht. Durch das Training auf verschiedenen Basis-LLMs – darunter TinyLlama 1.1B, InternLM2-7B, LLaMA2-13B und Mixtral8x7B – erhalten wir eine Bandbreite an MLLMs, die sich in der Parameteranzahl und den multilingualen Fähigkeiten unterscheiden. Umfassende Benchmark-Tests zeigen eine starke Korrelation zwischen der multimodalen Leistung und den Skalen der Daten sowie der Parameter. Der Quellcode und die Modelle werden unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.

SPHINX-X: Skalierung von Daten und Parametern für eine Familie mehrdimensionaler großer Sprachmodelle | Neueste Forschungsarbeiten | HyperAI