Command Palette
Search for a command to run...
Beseitigung von Verzerrungen in der Bildgenerierung mittels mehrskaligen Diffusionsmodellen
Beseitigung von Verzerrungen in der Bildgenerierung mittels mehrskaligen Diffusionsmodellen
Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen
Zusammenfassung
Diese Arbeit präsentiert innovative Verbesserungen von Diffusionsmodellen durch die Integration eines neuartigen Multi-Resolution-Netzwerks und einer zeitabhängigen Layer-Normalisierung. Diffusionsmodelle haben aufgrund ihrer Effektivität bei der Erzeugung hochfidelitätsreicher Bilder an Bedeutung gewonnen. Während herkömmliche Ansätze auf convolutionalen U-Net-Architekturen basieren, haben kürzlich vorgestellte Transformer-basierte Designs eine überlegene Leistung und Skalierbarkeit demonstriert. Allerdings stehen Transformer-Architekturen, die Eingabedaten durch „Patchifizierung“ tokenisieren, vor einem Kompromiss zwischen visueller Fidelität und rechnerischer Komplexität, bedingt durch die quadratische Skalierung der Selbst-Attention-Operationen in Bezug auf die Tokenlänge. Obwohl größere Patch-Größen die Effizienz der Attention-Berechnung erhöhen, erweisen sie sich als unzureichend zur Erfassung feinster visueller Details, was zu Bildverzerrungen führt. Um dieses Problem zu lösen, schlagen wir die Erweiterung des Diffusionsmodells mit dem Multi-Resolution-Netzwerk (DiMR) vor, einem Framework, das Merkmale über mehrere Auflösungen hinweg verfeinert und schrittweise die Detailgenauigkeit von niedriger zu hoher Auflösung verbessert. Zudem führen wir die Time-Dependent Layer Normalization (TD-LN) ein, eine parameter-effiziente Methode, die zeitabhängige Parameter in die Layer-Normalisierung integriert, um zeitliche Information einzubringen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird am Benchmark der klassenbedingten ImageNet-Bildgenerierung nachgewiesen, wo die DiMR-XL-Varianten vorherige Diffusionsmodelle übertrumpfen und neue State-of-the-Art-FID-Scores von 1,70 auf ImageNet 256×256 und 2,89 auf ImageNet 512×512 erreichen. Projektseite: https://qihao067.github.io/projects/DiMR