HyperAIHyperAI

Command Palette

Search for a command to run...

DiffiT: Diffusion Vision Transformers für die Bildgenerierung

Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat

Zusammenfassung

Diffusionsmodelle haben aufgrund ihrer starken Ausdruckskraft und der hohen Qualität der generierten Proben State-of-the-Art (SOTA)-Leistung im generativen Bereich erzielt. Der wegweisende Vision Transformer (ViT) hat zudem erhebliche Modellierungs- und Skalierbarkeitsfähigkeiten, insbesondere für Erkennungsaufgaben, demonstriert. In diesem Artikel untersuchen wir die Wirksamkeit von ViTs im Kontext diffusionbasierter generativer Lernverfahren und stellen ein neues Modell vor, das als Diffusion Vision Transformers (DiffiT) bezeichnet wird. Konkret schlagen wir eine Methodik zur feinabgestimmten Steuerung des Entrauschungsprozesses vor und führen die Time-dependant Multihead Self Attention (TMSA)-Mechanismus ein. DiffiT erweist sich überraschend effektiv bei der Generierung hochfidelitätsreicher Bilder und weist eine signifikant verbesserte Parameter-Effizienz auf. Zudem präsentieren wir Latent- und Bildraum-Modelle basierend auf DiffiT und zeigen SOTA-Leistung bei einer Vielzahl von klassenbedingten und unbedingten Syntheseaufgaben unterschiedlicher Auflösungen. Das Latent-DiffiT-Modell erreicht auf dem ImageNet256-Datensatz einen neuen SOTA-FID-Score von 1,73, während es jeweils 19,85 % und 16,88 % weniger Parameter als andere Transformer-basierte Diffusionsmodelle wie MDT und DiT benötigt. Code: https://github.com/NVlabs/DiffiT


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DiffiT: Diffusion Vision Transformers für die Bildgenerierung | Paper | HyperAI