MDTv2: Masked Diffusion Transformer ist ein leistungsfähiger Bildsynthesizer

Trotz seines Erfolgs bei der Bildsynthese weisen Diffusionswahrscheinlichkeitsmodelle (DPMs) oft eine geringe Fähigkeit zur kontextuellen Schlussfolgerung auf, was bedeutet, dass sie Schwierigkeiten haben, die Beziehungen zwischen Objektteilen in einem Bild zu lernen, was zu einem langsamen Lernprozess führt. Um dieses Problem zu lösen, schlagen wir einen Masked Diffusion Transformer (MDT) vor, der ein maskiertes Latent-Modellierungsschema einführt, um die Fähigkeit von DPMs zur kontextuellen Beziehungsanalyse zwischen semantischen Teilen von Objekten in einem Bild explizit zu verbessern. Während des Trainings operiert MDT im Latentraum, indem bestimmte Tokens maskiert werden. Anschließend wird ein asymmetrischer Diffusions-Transformer entworfen, der die maskierten Tokens aus den unmaskierten vorhersagt, während der Diffusionsgenerierungsprozess beibehalten wird. Unser MDT kann die vollständige Information eines Bildes aus einer unvollständigen kontextuellen Eingabe rekonstruieren, wodurch es in der Lage ist, die zugehörigen Beziehungen zwischen den Bild-Tokens zu erlernen. Wir verbessern MDT weiterhin durch eine effizientere Makro-Netzwerkstruktur und ein verbessertes Trainingsverfahren, das als MDTv2 bezeichnet wird. Experimentelle Ergebnisse zeigen, dass MDTv2 eine überlegene Leistung bei der Bildsynthese erzielt, beispielsweise einen neuen SOTA-FID-Wert von 1,58 auf dem ImageNet-Datensatz, und mehr als 10-mal schneller lernt als das vorherige SOTA-Modell DiT. Der Quellcode ist unter https://github.com/sail-sg/MDT veröffentlicht.