DiffiT: Diffusion Vision Transformers für die Bildgenerierung

Diffusionsmodelle haben aufgrund ihrer starken Ausdruckskraft und der hohen Qualität der generierten Proben State-of-the-Art (SOTA)-Leistung im generativen Bereich erzielt. Der wegweisende Vision Transformer (ViT) hat zudem erhebliche Modellierungs- und Skalierbarkeitsfähigkeiten, insbesondere für Erkennungsaufgaben, demonstriert. In diesem Artikel untersuchen wir die Wirksamkeit von ViTs im Kontext diffusionbasierter generativer Lernverfahren und stellen ein neues Modell vor, das als Diffusion Vision Transformers (DiffiT) bezeichnet wird. Konkret schlagen wir eine Methodik zur feinabgestimmten Steuerung des Entrauschungsprozesses vor und führen die Time-dependant Multihead Self Attention (TMSA)-Mechanismus ein. DiffiT erweist sich überraschend effektiv bei der Generierung hochfidelitätsreicher Bilder und weist eine signifikant verbesserte Parameter-Effizienz auf. Zudem präsentieren wir Latent- und Bildraum-Modelle basierend auf DiffiT und zeigen SOTA-Leistung bei einer Vielzahl von klassenbedingten und unbedingten Syntheseaufgaben unterschiedlicher Auflösungen. Das Latent-DiffiT-Modell erreicht auf dem ImageNet256-Datensatz einen neuen SOTA-FID-Score von 1,73, während es jeweils 19,85 % und 16,88 % weniger Parameter als andere Transformer-basierte Diffusionsmodelle wie MDT und DiT benötigt. Code: https://github.com/NVlabs/DiffiT