HyperAIHyperAI

Command Palette

Search for a command to run...

Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren

Abstract

Moderne latente Diffusionsmodelle (LDMs) operieren typischerweise in niedrigdimensionalen latenzraumlichen Räumen von Variational Autoencodern (VAEs), die primär auf die Rekonstruktion auf Pixel-Ebene optimiert sind. Um die Generierung und das Verständnis von Bildern zu vereinheitlichen, gewinnt ein wachsender Trend an Bedeutung, hochdimensionale Merkmale aus Darstellungsenkodierern als generative Latenzen zu nutzen. Wir identifizieren jedoch empirisch zwei grundlegende Hindernisse dieses Ansatzes: (1) Der diskriminative Merkmalsraum verfügt über eine unzureichende kompakte Regularisierung, wodurch Diffusionsmodelle anfällig für latente Vektoren außerhalb der Datenmannigfaltigkeit werden, was zu fehlerhaften Objektstrukturen führt; und (2) die intrinsisch schwache Rekonstruktionsfähigkeit des Encoders auf Pixel-Ebene behindert die Fähigkeit des Generators, präzise feinmaschige Geometrien und Texturen zu erlernen. In diesem Artikel stellen wir einen systematischen Rahmen vor, um verständnisorientierte Encoder-Merkmale für generative Aufgaben anzupassen. Wir führen eine semantisch-pixelbasierte Rekonstruktionszieleinführung ein, um den Latenzraum zu regularisieren, wodurch sowohl semantische Informationen als auch feinmaschige Details in einer hochkompakten Darstellung (96 Kanäle mit 16×16 räumlicher Downsampling) komprimiert werden können. Diese Architektur gewährleistet, dass der Latenzraum semantisch reichhaltig bleibt und gleichzeitig eine state-of-the-art Bildrekonstruktion erreicht, während er dennoch kompakt genug ist, um präzise Generierung zu ermöglichen. Auf Basis dieser Darstellung entwerfen wir ein vereinheitlichtes Text-to-Image-(T2I)- und Bildbearbeitungsmodell. In Benchmark-Tests gegenüber verschiedenen Merkmalsräumen zeigen wir, dass unser Ansatz sowohl state-of-the-art-Rekonstruktion, schnellere Konvergenz als auch erhebliche Leistungsverbesserungen sowohl bei T2I- als auch bei Bearbeitungsaufgaben erzielt, was bestätigt, dass Darstellungsenkodierer effektiv in robuste generative Komponenten überführt werden können.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren | Papers | HyperAI