vor 8 Monaten

Zusammenfassung

Dieses Papier stellt verbesserte einheitliche multimodale Modelle vor, nämlich Show-o2, die autoregressive Modellierung und Flussabgleich nutzen. Aufbauend auf einem 3D-causal-variational-Autoencoder-Raum werden einheitliche visuelle Repräsentationen durch einen dualen Pfad der räumlichen (und zeitlichen) Fusion konstruiert, was Skalierbarkeit für Bild- und Videomodalitäten ermöglicht und gleichzeitig eine effektive multimodale Verarbeitung und Generierung sicherstellt. Basierend auf einem Sprachmodell wird die autoregressive Modellierung am Sprachkopf und der Flussabgleich am Flusskopf angewendet, um die Vorhersage von Texttoken und die Generierung von Bildern/Videos zu erleichtern. Ein zweistufiges Trainingsrezept wurde entwickelt, um das effektive Lernen und die Skalierung auf größere Modelle zu gewährleisten. Die resultierenden Show-o2-Modelle zeigen Vielseitigkeit bei der Bearbeitung einer breiten Palette an multimodal verarbeitenden und generativen Aufgaben in verschiedenen Modalitäten, einschließlich Text, Bilder und Videos. Der Quellcode und die Modelle sind unter dieser HTTPS-Adresse veröffentlicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Any-to-Any

Multimodale Darstellung

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Any-to-Any

Multimodale Darstellung

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Show-o2: Verbesserte einheitliche multimodale Modelle

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Show-o2: Verbesserte einheitliche multimodale Modelle

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Show-o2: Verbesserte einheitliche multimodale Modelle

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters