Untersuchung des Informationstransfers zwischen MLLM und Diffusion mit MetaCanvas
Untersuchung des Informationstransfers zwischen MLLM und Diffusion mit MetaCanvas

Abstract
Die multimodale Lernansätze haben die visuelle Verständnisfähigkeit rasant vorangetrieben, vor allem durch multimodale große Sprachmodelle (MLLMs), die leistungsstarke große Sprachmodelle (LLMs) als kognitive Kerne nutzen. In der visuellen Generierung werden diese leistungsstarken Kernmodelle jedoch typischerweise lediglich als globale Text-Encoder für Diffusionsmodelle eingesetzt, wodurch der größte Teil ihres reasoning- und planungsbasierten Potenzials ungenutzt bleibt. Dies schafft eine Lücke: Aktuelle multimodale LLMs können komplexe Layouts, Attribute und wissensintensive Szenen verarbeiten, stoßen jedoch bei der Generierung von Bildern oder Videos mit vergleichbar präziser und strukturierter Steuerung an ihre Grenzen. Wir stellen MetaCanvas vor, einen leichten Rahmen, der MLLMs erlaubt, direkt in räumlichen und raumzeitlichen Latent-Räumen zu reasoning und planen und eng mit Diffusionsgeneratoren interagiert. Wir implementieren MetaCanvas empirisch auf drei unterschiedlichen Diffusions-Backbones und evaluieren es an sechs Aufgaben, darunter Text-zu-Bild-Generierung, Text-/Bild-zu-Video-Generierung, Bild-/Video-Editing sowie kontextbasierte Video-Generierung – jeweils mit Anforderungen an präzise Layouts, robuste Attributbindung und reasoning-intensives Control. MetaCanvas übertrifft konsistent die Baselines mit globaler Bedingung, was darauf hindeutet, dass die Behandlung von MLLMs als Latent-Raum-Planner eine vielversprechende Richtung darstellt, um die Kluft zwischen multimodaler Verarbeitung und Generierung zu schließen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.