vor 2 Monaten

Zusammenfassung

Wir stellen EMMA vor, eine effiziente und einheitliche Architektur für multimodales Verständnis, die Generierung und Bearbeitung. Konkret besteht EMMA aus vier zentralen Komponenten: 1) Einem effizienten Autoencoder mit einem Kompressionsverhältnis von 32:1, der die Anzahl der benötigten Tokens für die Generierung erheblich reduziert. Dies gewährleistet zudem eine ausgewogene Trainingsdynamik zwischen Verständnis- und Generierungsaufgaben, da das gleiche Kompressionsverhältnis auch auf Bilder angewendet wird. 2) Eine kanalweise Verkettung anstelle der herkömmlichen token-weisen Verkettung zwischen visuellen Verständnis- und Generierungstokens, was die Anzahl der visuellen Tokens in einheitlichen Architekturen weiter verringert. 3) Einem geteilten-und-dekupelten Netzwerk, das eine gegenseitige Verbesserung zwischen Aufgaben ermöglicht, während gleichzeitig spezifische Modellierungsanforderungen jeder Aufgabe erfüllt werden. 4) Einem Mixture-of-Experts-Mechanismus, der im visuellen Verständnis-Encoder eingesetzt wird und die Wahrnehmungsfähigkeiten erheblich verbessert, ohne dabei signifikant mehr Parameter hinzuzufügen. Umfangreiche Experimente zeigen, dass EMMA-4B sowohl hinsichtlich Effizienz als auch Leistung deutlich über aktuelle State-of-the-Art-Ansätze für einheitliche multimodale Architekturen (z. B. BAGEL-7B) hinausgeht und gleichzeitig konkurrenzfähige Ergebnisse erzielt im Vergleich zu jüngsten Spezialisten für multimodales Verständnis und Generierung (z. B. Qwen3-VL und Qwen-Image). Wir sind überzeugt, dass EMMA eine solide Grundlage für die zukünftige Entwicklung einheitlicher multimodaler Architekturen bildet.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur | Paper | HyperAI

Command Palette

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EMMA: Effiziente multimodale Verständnis, Generierung und Bearbeitung mit einer einheitlichen Architektur

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters