HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur

Abstract

Wir stellen EMMA vor, eine effiziente und einheitliche Architektur für multimodales Verständnis, die Generierung und Bearbeitung. Konkret besteht EMMA aus vier zentralen Komponenten: 1) Einem effizienten Autoencoder mit einem Kompressionsverhältnis von 32:1, der die Anzahl der benötigten Tokens für die Generierung erheblich reduziert. Dies gewährleistet zudem eine ausgewogene Trainingsdynamik zwischen Verständnis- und Generierungsaufgaben, da das gleiche Kompressionsverhältnis auch auf Bilder angewendet wird. 2) Eine kanalweise Verkettung anstelle der herkömmlichen token-weisen Verkettung zwischen visuellen Verständnis- und Generierungstokens, was die Anzahl der visuellen Tokens in einheitlichen Architekturen weiter verringert. 3) Einem geteilten-und-dekupelten Netzwerk, das eine gegenseitige Verbesserung zwischen Aufgaben ermöglicht, während gleichzeitig spezifische Modellierungsanforderungen jeder Aufgabe erfüllt werden. 4) Einem Mixture-of-Experts-Mechanismus, der im visuellen Verständnis-Encoder eingesetzt wird und die Wahrnehmungsfähigkeiten erheblich verbessert, ohne dabei signifikant mehr Parameter hinzuzufügen. Umfangreiche Experimente zeigen, dass EMMA-4B sowohl hinsichtlich Effizienz als auch Leistung deutlich über aktuelle State-of-the-Art-Ansätze für einheitliche multimodale Architekturen (z. B. BAGEL-7B) hinausgeht und gleichzeitig konkurrenzfähige Ergebnisse erzielt im Vergleich zu jüngsten Spezialisten für multimodales Verständnis und Generierung (z. B. Qwen3-VL und Qwen-Image). Wir sind überzeugt, dass EMMA eine solide Grundlage für die zukünftige Entwicklung einheitlicher multimodaler Architekturen bildet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur | Forschungsarbeiten | HyperAI