Command Palette
Search for a command to run...
Voranschritt bei der end-to-end Pixelraum-generativen Modellierung durch selbstüberwachtes Vortrainieren
Voranschritt bei der end-to-end Pixelraum-generativen Modellierung durch selbstüberwachtes Vortrainieren
Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu
Zusammenfassung
Pixelraum-basierte generative Modelle sind oft schwieriger zu trainieren und verfügen im Allgemeinen über eine geringere Leistungsfähigkeit im Vergleich zu ihren latenten Raum-Entsprechungen, was eine anhaltende Lücke in Leistung und Effizienz hinterlässt. In diesem Artikel stellen wir einen neuartigen zweistufigen Trainingsansatz vor, der diese Lücke für Pixelraum-Diffusions- und Konsistenzmodelle schließt. Im ersten Schritt prätrainieren wir Encoder, um sinnvolle Semantik aus sauberen Bildern zu erfassen und gleichzeitig diese mit Punkten entlang derselben deterministischen Sampling-Path zu verknüpfen, die von der Prior-Verteilung zur Datenverteilung führen. Im zweiten Schritt integrieren wir den Encoder mit einem zufällig initialisierten Decoder und feinjustieren das vollständige Modell end-to-end sowohl für Diffusions- als auch für Konsistenzmodelle. Unser Trainingsframework zeigt starke empirische Ergebnisse auf dem ImageNet-Datensatz. Insbesondere erreicht unser Diffusionsmodell auf ImageNet-256 eine FID von 2,04 und auf ImageNet-512 eine FID von 2,35 bei 75 Function Evaluations (NFE), wobei die Generationsqualität und Effizienz deutlich über vorherigen Pixelraum-Methoden liegen und gleichzeitig führende VAE-basierte Modelle bei vergleichbarem Trainingsaufwand erreichen. Darüber hinaus erreicht unser Konsistenzmodell auf ImageNet-256 eine beeindruckende FID von 8,82 in nur einem Sampling-Schritt und übertrifft damit signifikant seine latenten Raum-Entsprechungen. So weit uns bekannt ist, markiert dies die erste erfolgreiche Training eines Konsistenzmodells direkt auf hochauflösenden Bildern ohne Rückgriff auf vortrainierte VAEs oder Diffusionsmodelle.