Beseitigung von Verzerrungen in der Bildgenerierung mittels mehrskaligen Diffusionsmodellen

Diese Arbeit präsentiert innovative Verbesserungen von Diffusionsmodellen durch die Integration eines neuartigen Multi-Resolution-Netzwerks und einer zeitabhängigen Layer-Normalisierung. Diffusionsmodelle haben aufgrund ihrer Effektivität bei der Erzeugung hochfidelitätsreicher Bilder an Bedeutung gewonnen. Während herkömmliche Ansätze auf convolutionalen U-Net-Architekturen basieren, haben kürzlich vorgestellte Transformer-basierte Designs eine überlegene Leistung und Skalierbarkeit demonstriert. Allerdings stehen Transformer-Architekturen, die Eingabedaten durch „Patchifizierung“ tokenisieren, vor einem Kompromiss zwischen visueller Fidelität und rechnerischer Komplexität, bedingt durch die quadratische Skalierung der Selbst-Attention-Operationen in Bezug auf die Tokenlänge. Obwohl größere Patch-Größen die Effizienz der Attention-Berechnung erhöhen, erweisen sie sich als unzureichend zur Erfassung feinster visueller Details, was zu Bildverzerrungen führt. Um dieses Problem zu lösen, schlagen wir die Erweiterung des Diffusionsmodells mit dem Multi-Resolution-Netzwerk (DiMR) vor, einem Framework, das Merkmale über mehrere Auflösungen hinweg verfeinert und schrittweise die Detailgenauigkeit von niedriger zu hoher Auflösung verbessert. Zudem führen wir die Time-Dependent Layer Normalization (TD-LN) ein, eine parameter-effiziente Methode, die zeitabhängige Parameter in die Layer-Normalisierung integriert, um zeitliche Information einzubringen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird am Benchmark der klassenbedingten ImageNet-Bildgenerierung nachgewiesen, wo die DiMR-XL-Varianten vorherige Diffusionsmodelle übertrumpfen und neue State-of-the-Art-FID-Scores von 1,70 auf ImageNet 256×256 und 2,89 auf ImageNet 512×512 erreichen. Projektseite: https://qihao067.github.io/projects/DiMR