HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Voranschritt bei der end-to-end Pixelraum-generativen Modellierung durch selbstüberwachtes Vortrainieren

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

Voranschritt bei der end-to-end Pixelraum-generativen Modellierung durch selbstüberwachtes Vortrainieren

Abstract

Pixelraum-basierte generative Modelle sind oft schwieriger zu trainieren und verfügen im Allgemeinen über eine geringere Leistungsfähigkeit im Vergleich zu ihren latenten Raum-Entsprechungen, was eine anhaltende Lücke in Leistung und Effizienz hinterlässt. In diesem Artikel stellen wir einen neuartigen zweistufigen Trainingsansatz vor, der diese Lücke für Pixelraum-Diffusions- und Konsistenzmodelle schließt. Im ersten Schritt prätrainieren wir Encoder, um sinnvolle Semantik aus sauberen Bildern zu erfassen und gleichzeitig diese mit Punkten entlang derselben deterministischen Sampling-Path zu verknüpfen, die von der Prior-Verteilung zur Datenverteilung führen. Im zweiten Schritt integrieren wir den Encoder mit einem zufällig initialisierten Decoder und feinjustieren das vollständige Modell end-to-end sowohl für Diffusions- als auch für Konsistenzmodelle. Unser Trainingsframework zeigt starke empirische Ergebnisse auf dem ImageNet-Datensatz. Insbesondere erreicht unser Diffusionsmodell auf ImageNet-256 eine FID von 2,04 und auf ImageNet-512 eine FID von 2,35 bei 75 Function Evaluations (NFE), wobei die Generationsqualität und Effizienz deutlich über vorherigen Pixelraum-Methoden liegen und gleichzeitig führende VAE-basierte Modelle bei vergleichbarem Trainingsaufwand erreichen. Darüber hinaus erreicht unser Konsistenzmodell auf ImageNet-256 eine beeindruckende FID von 8,82 in nur einem Sampling-Schritt und übertrifft damit signifikant seine latenten Raum-Entsprechungen. So weit uns bekannt ist, markiert dies die erste erfolgreiche Training eines Konsistenzmodells direkt auf hochauflösenden Bildern ohne Rückgriff auf vortrainierte VAEs oder Diffusionsmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Voranschritt bei der end-to-end Pixelraum-generativen Modellierung durch selbstüberwachtes Vortrainieren | Forschungsarbeiten | HyperAI