HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Show-o2: Verbesserte einheitliche multimodale Modelle

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Show-o2: Verbesserte einheitliche multimodale Modelle

Abstract

Dieses Papier stellt verbesserte einheitliche multimodale Modelle vor, nämlich Show-o2, die autoregressive Modellierung und Flussabgleich nutzen. Aufbauend auf einem 3D-causal-variational-Autoencoder-Raum werden einheitliche visuelle Repräsentationen durch einen dualen Pfad der räumlichen (und zeitlichen) Fusion konstruiert, was Skalierbarkeit für Bild- und Videomodalitäten ermöglicht und gleichzeitig eine effektive multimodale Verarbeitung und Generierung sicherstellt. Basierend auf einem Sprachmodell wird die autoregressive Modellierung am Sprachkopf und der Flussabgleich am Flusskopf angewendet, um die Vorhersage von Texttoken und die Generierung von Bildern/Videos zu erleichtern. Ein zweistufiges Trainingsrezept wurde entwickelt, um das effektive Lernen und die Skalierung auf größere Modelle zu gewährleisten. Die resultierenden Show-o2-Modelle zeigen Vielseitigkeit bei der Bearbeitung einer breiten Palette an multimodal verarbeitenden und generativen Aufgaben in verschiedenen Modalitäten, einschließlich Text, Bilder und Videos. Der Quellcode und die Modelle sind unter dieser HTTPS-Adresse veröffentlicht.

Code-Repositories

showlab/show-o
Offiziell
jax
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Show-o2: Verbesserte einheitliche multimodale Modelle | Forschungsarbeiten | HyperAI