HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

Abstract

Wir präsentieren Uni-MoE 2.0 aus der Lychee-Familie. Als vollständig offene, omnimodale Großmodell-Plattform (OLM) stellt Uni-MoE 2.0 eine erhebliche Weiterentwicklung der Uni-MoE-Serie von Lychee im Bereich der sprachzentrierten multimodalen Wahrnehmung, Schlussfolgerung und Generierung dar. Aufbauend auf der dichten Architektur Qwen2.5-7B wurde Uni-MoE-2.0-Omni von Grund auf durch drei zentrale Beiträge entwickelt: eine dynamische Kapazitäts-Mixture-of-Experts-(MoE)-Architektur, eine fortschreitende Trainingsstrategie, die durch eine iterative Verstärkungslernstrategie verbessert wurde, sowie eine sorgfältig gestaltete Technik zur Anpassung multimodaler Daten. Das Modell verfügt über Fähigkeiten zur omnimodalen Wahrnehmung sowie zur Generierung von Bildern, Text und Sprache. Architektonisch balanciert unser neues MoE-Framework Rechenleistung und Leistungsfähigkeit für bis zu 10 cross-modale Eingaben durch die Verwendung gemeinsamer, gerouteter und null-Experten, während unsere Omni-Modality-3D-RoPE eine räumlich-zeitliche, cross-modale Ausrichtung im Self-Attention-Layer gewährleistet. Beim Training folgen wir einer cross-modalen Vortrainingsphase und setzen eine fortschreitende, überwachte Feinabstimmungsstrategie ein, die modality-spezifische Experten aktiviert und durch eine ausgewogene Datenzusammensetzung sowie eine iterative GSPO-DPO-Methode stabilisiert wird, um den RL-Trainingsprozess zu verbessern und die Schlussfolgerungsfähigkeit zu steigern. Hinsichtlich der Daten verfügt das Basismodell, das auf etwa 75 Milliarden Tokens offener, multimodaler Daten trainiert wurde, über spezielle Token für Sprach- und Bildgenerierung, wodurch es in der Lage ist, diese generativen Aufgaben zu erlernen, indem es seine Ausgaben an sprachliche Hinweise konditioniert. Umfassende Evaluationen an 85 Benchmarks zeigen, dass unser Modell SOTA- oder sehr wettbewerbsfähige Leistungen gegenüber führenden OLMs erzielt und Qwen2.5-Omni (das mit 1,2 Billionen Tokens trainiert wurde) in über 50 von 76 Benchmarks übertreffen kann. Zu den zentralen Stärken zählen die Videoverstehensleistung (+7 % im Durchschnitt von 8), die omnimodale Wahrnehmung (+7 % im Durchschnitt von 4) sowie die audiovisuelle Schlussfolgerung (+4 %). Zudem erreicht das Modell Fortschritte bei der Verarbeitung langer Sprachsequenzen (Reduktion des WER um 4,2 %) und führt in fünf Metriken bei der Low-Level-Bildverarbeitung und kontrollierbaren Generierung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten | Forschungsarbeiten | HyperAI