HyperAIHyperAI
vor 17 Tagen

Relay Diffusion: Vereinheitlichung des Diffusionsprozesses über Auflösungen hinweg für die Bildsynthese

Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang
Relay Diffusion: Vereinheitlichung des Diffusionsprozesses über Auflösungen hinweg für die Bildsynthese
Abstract

Diffusionsmodelle haben bei der Bildsynthese erheblichen Erfolg erzielt, stehen jedoch weiterhin vor Herausforderungen bei der Erzeugung hochauflösender Bilder. Unter Verwendung der diskreten Kosinustransformation stellen wir fest, dass der Hauptgrund darin liegt, dass der gleiche Rauschpegel bei höherer Auflösung zu einem höheren Signal-zu-Rausch-Verhältnis im Frequenzraum führt. In dieser Arbeit präsentieren wir das Relay Diffusion Model (RDM), das ein Bild oder Rauschen mit niedriger Auflösung mittels verschwommenem Diffusionsprozess und blockweiseem Rauschen in eine äquivalente hochauflösende Form überträgt. Dadurch kann der Diffusionsprozess nahtlos in beliebigen neuen Auflösungen oder Modellen fortgesetzt werden, ohne von reinem Rauschen oder einer niedrigauflösenden Bedingung ausgehen zu müssen. RDM erreicht neue Sollwerte im FID auf CelebA-HQ und im sFID auf ImageNet 256×256 und übertrifft damit frühere Ansätze wie ADM, LDM und DiT deutlich. Alle Codes und Modell-Checkpoints sind unter \url{https://github.com/THUDM/RelayDiffusion} öffentlich zugänglich.