HyperAIHyperAI

Command Palette

Search for a command to run...

SPHINX-X: Skalierung von Daten und Parametern für eine Familie mehrdimensionaler großer Sprachmodelle

Zusammenfassung

Wir stellen SPHINX-X vor, eine umfassende Serie von Multimodalen Großen Sprachmodellen (MLLM), die auf SPHINX aufbaut. Um die Architektur und die Trainingseffizienz zu verbessern, modifizieren wir den SPHINX-Framework durch die Entfernung überflüssiger visueller Encoder, das Umgehen vollständig gepadder Sub-Bilder mittels Skip-Tokens sowie die Vereinfachung des mehrstufigen Trainings auf ein einstufiges All-in-One-Paradigma. Um das volle Potenzial von MLLMs auszuschöpfen, erstellen wir eine umfassende, mehrdomänen- und multimodale Datensammlung, die öffentlich verfügbare Ressourcen aus den Bereichen Sprache, Vision und Sprache-Vision-Aufgaben abdeckt. Diese Sammlung ergänzen wir zudem durch unsere eigenständig kuratierten OCR-intensiven und Set-of-Mark-Datensätze, was die Vielfalt und Allgemeingültigkeit erheblich erhöht. Durch das Training auf verschiedenen Basis-LLMs – darunter TinyLlama 1.1B, InternLM2-7B, LLaMA2-13B und Mixtral8x7B – erhalten wir eine Bandbreite an MLLMs, die sich in der Parameteranzahl und den multilingualen Fähigkeiten unterscheiden. Umfassende Benchmark-Tests zeigen eine starke Korrelation zwischen der multimodalen Leistung und den Skalen der Daten sowie der Parameter. Der Quellcode und die Modelle werden unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp