HyperAIHyperAI

Command Palette

Search for a command to run...

MDTv2: Masked Diffusion Transformer ist ein leistungsfähiger Bildsynthesizer

Shanghua Gao Pan Zhou Ming-Ming Cheng Shuicheng Yan

Zusammenfassung

Trotz seines Erfolgs bei der Bildsynthese weisen Diffusionswahrscheinlichkeitsmodelle (DPMs) oft eine geringe Fähigkeit zur kontextuellen Schlussfolgerung auf, was bedeutet, dass sie Schwierigkeiten haben, die Beziehungen zwischen Objektteilen in einem Bild zu lernen, was zu einem langsamen Lernprozess führt. Um dieses Problem zu lösen, schlagen wir einen Masked Diffusion Transformer (MDT) vor, der ein maskiertes Latent-Modellierungsschema einführt, um die Fähigkeit von DPMs zur kontextuellen Beziehungsanalyse zwischen semantischen Teilen von Objekten in einem Bild explizit zu verbessern. Während des Trainings operiert MDT im Latentraum, indem bestimmte Tokens maskiert werden. Anschließend wird ein asymmetrischer Diffusions-Transformer entworfen, der die maskierten Tokens aus den unmaskierten vorhersagt, während der Diffusionsgenerierungsprozess beibehalten wird. Unser MDT kann die vollständige Information eines Bildes aus einer unvollständigen kontextuellen Eingabe rekonstruieren, wodurch es in der Lage ist, die zugehörigen Beziehungen zwischen den Bild-Tokens zu erlernen. Wir verbessern MDT weiterhin durch eine effizientere Makro-Netzwerkstruktur und ein verbessertes Trainingsverfahren, das als MDTv2 bezeichnet wird. Experimentelle Ergebnisse zeigen, dass MDTv2 eine überlegene Leistung bei der Bildsynthese erzielt, beispielsweise einen neuen SOTA-FID-Wert von 1,58 auf dem ImageNet-Datensatz, und mehr als 10-mal schneller lernt als das vorherige SOTA-Modell DiT. Der Quellcode ist unter https://github.com/sail-sg/MDT veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MDTv2: Masked Diffusion Transformer ist ein leistungsfähiger Bildsynthesizer | Paper | HyperAI