vor 2 Monaten

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Zusammenfassung

Moderne latente Diffusionsmodelle (LDMs) operieren typischerweise in niedrigdimensionalen latenzraumlichen Räumen von Variational Autoencodern (VAEs), die primär auf die Rekonstruktion auf Pixel-Ebene optimiert sind. Um die Generierung und das Verständnis von Bildern zu vereinheitlichen, gewinnt ein wachsender Trend an Bedeutung, hochdimensionale Merkmale aus Darstellungsenkodierern als generative Latenzen zu nutzen. Wir identifizieren jedoch empirisch zwei grundlegende Hindernisse dieses Ansatzes: (1) Der diskriminative Merkmalsraum verfügt über eine unzureichende kompakte Regularisierung, wodurch Diffusionsmodelle anfällig für latente Vektoren außerhalb der Datenmannigfaltigkeit werden, was zu fehlerhaften Objektstrukturen führt; und (2) die intrinsisch schwache Rekonstruktionsfähigkeit des Encoders auf Pixel-Ebene behindert die Fähigkeit des Generators, präzise feinmaschige Geometrien und Texturen zu erlernen. In diesem Artikel stellen wir einen systematischen Rahmen vor, um verständnisorientierte Encoder-Merkmale für generative Aufgaben anzupassen. Wir führen eine semantisch-pixelbasierte Rekonstruktionszieleinführung ein, um den Latenzraum zu regularisieren, wodurch sowohl semantische Informationen als auch feinmaschige Details in einer hochkompakten Darstellung (96 Kanäle mit 16×16 räumlicher Downsampling) komprimiert werden können. Diese Architektur gewährleistet, dass der Latenzraum semantisch reichhaltig bleibt und gleichzeitig eine state-of-the-art Bildrekonstruktion erreicht, während er dennoch kompakt genug ist, um präzise Generierung zu ermöglichen. Auf Basis dieser Darstellung entwerfen wir ein vereinheitlichtes Text-to-Image-(T2I)- und Bildbearbeitungsmodell. In Benchmark-Tests gegenüber verschiedenen Merkmalsräumen zeigen wir, dass unser Ansatz sowohl state-of-the-art-Rekonstruktion, schnellere Konvergenz als auch erhebliche Leistungsverbesserungen sowohl bei T2I- als auch bei Bearbeitungsaufgaben erzielt, was bestätigt, dass Darstellungsenkodierer effektiv in robuste generative Komponenten überführt werden können.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sowohl Semantik als auch Rekonstruktion sind wichtig: Darstellungscodierer für die Text-zu-Bild-Generierung und -Bearbeitung optimieren

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu