Command Palette
Search for a command to run...
Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren
Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren
Abstract
Moderne latente Diffusionsmodelle (LDMs) operieren typischerweise in niedrigdimensionalen latenzraumlichen Räumen von Variational Autoencodern (VAEs), die primär auf die Rekonstruktion auf Pixel-Ebene optimiert sind. Um die Generierung und das Verständnis von Bildern zu vereinheitlichen, gewinnt ein wachsender Trend an Bedeutung, hochdimensionale Merkmale aus Darstellungsenkodierern als generative Latenzen zu nutzen. Wir identifizieren jedoch empirisch zwei grundlegende Hindernisse dieses Ansatzes: (1) Der diskriminative Merkmalsraum verfügt über eine unzureichende kompakte Regularisierung, wodurch Diffusionsmodelle anfällig für latente Vektoren außerhalb der Datenmannigfaltigkeit werden, was zu fehlerhaften Objektstrukturen führt; und (2) die intrinsisch schwache Rekonstruktionsfähigkeit des Encoders auf Pixel-Ebene behindert die Fähigkeit des Generators, präzise feinmaschige Geometrien und Texturen zu erlernen. In diesem Artikel stellen wir einen systematischen Rahmen vor, um verständnisorientierte Encoder-Merkmale für generative Aufgaben anzupassen. Wir führen eine semantisch-pixelbasierte Rekonstruktionszieleinführung ein, um den Latenzraum zu regularisieren, wodurch sowohl semantische Informationen als auch feinmaschige Details in einer hochkompakten Darstellung (96 Kanäle mit 16×16 räumlicher Downsampling) komprimiert werden können. Diese Architektur gewährleistet, dass der Latenzraum semantisch reichhaltig bleibt und gleichzeitig eine state-of-the-art Bildrekonstruktion erreicht, während er dennoch kompakt genug ist, um präzise Generierung zu ermöglichen. Auf Basis dieser Darstellung entwerfen wir ein vereinheitlichtes Text-to-Image-(T2I)- und Bildbearbeitungsmodell. In Benchmark-Tests gegenüber verschiedenen Merkmalsräumen zeigen wir, dass unser Ansatz sowohl state-of-the-art-Rekonstruktion, schnellere Konvergenz als auch erhebliche Leistungsverbesserungen sowohl bei T2I- als auch bei Bearbeitungsaufgaben erzielt, was bestätigt, dass Darstellungsenkodierer effektiv in robuste generative Komponenten überführt werden können.