Command Palette
Search for a command to run...
Show-o2: Verbesserte einheitliche multimodale Modelle
Jinheng Xie Zhenheng Yang Mike Zheng Shou

Abstract
Dieses Papier stellt verbesserte einheitliche multimodale Modelle vor, nämlich Show-o2, die autoregressive Modellierung und Flussabgleich nutzen. Aufbauend auf einem 3D-causal-variational-Autoencoder-Raum werden einheitliche visuelle Repräsentationen durch einen dualen Pfad der räumlichen (und zeitlichen) Fusion konstruiert, was Skalierbarkeit für Bild- und Videomodalitäten ermöglicht und gleichzeitig eine effektive multimodale Verarbeitung und Generierung sicherstellt. Basierend auf einem Sprachmodell wird die autoregressive Modellierung am Sprachkopf und der Flussabgleich am Flusskopf angewendet, um die Vorhersage von Texttoken und die Generierung von Bildern/Videos zu erleichtern. Ein zweistufiges Trainingsrezept wurde entwickelt, um das effektive Lernen und die Skalierung auf größere Modelle zu gewährleisten. Die resultierenden Show-o2-Modelle zeigen Vielseitigkeit bei der Bearbeitung einer breiten Palette an multimodal verarbeitenden und generativen Aufgaben in verschiedenen Modalitäten, einschließlich Text, Bilder und Videos. Der Quellcode und die Modelle sind unter dieser HTTPS-Adresse veröffentlicht.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.