HyperAIHyperAI

Command Palette

Search for a command to run...

Beseitigung von Verzerrungen in der Bildgenerierung mittels mehrskaligen Diffusionsmodellen

Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen

Zusammenfassung

Diese Arbeit präsentiert innovative Verbesserungen von Diffusionsmodellen durch die Integration eines neuartigen Multi-Resolution-Netzwerks und einer zeitabhängigen Layer-Normalisierung. Diffusionsmodelle haben aufgrund ihrer Effektivität bei der Erzeugung hochfidelitätsreicher Bilder an Bedeutung gewonnen. Während herkömmliche Ansätze auf convolutionalen U-Net-Architekturen basieren, haben kürzlich vorgestellte Transformer-basierte Designs eine überlegene Leistung und Skalierbarkeit demonstriert. Allerdings stehen Transformer-Architekturen, die Eingabedaten durch „Patchifizierung“ tokenisieren, vor einem Kompromiss zwischen visueller Fidelität und rechnerischer Komplexität, bedingt durch die quadratische Skalierung der Selbst-Attention-Operationen in Bezug auf die Tokenlänge. Obwohl größere Patch-Größen die Effizienz der Attention-Berechnung erhöhen, erweisen sie sich als unzureichend zur Erfassung feinster visueller Details, was zu Bildverzerrungen führt. Um dieses Problem zu lösen, schlagen wir die Erweiterung des Diffusionsmodells mit dem Multi-Resolution-Netzwerk (DiMR) vor, einem Framework, das Merkmale über mehrere Auflösungen hinweg verfeinert und schrittweise die Detailgenauigkeit von niedriger zu hoher Auflösung verbessert. Zudem führen wir die Time-Dependent Layer Normalization (TD-LN) ein, eine parameter-effiziente Methode, die zeitabhängige Parameter in die Layer-Normalisierung integriert, um zeitliche Information einzubringen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird am Benchmark der klassenbedingten ImageNet-Bildgenerierung nachgewiesen, wo die DiMR-XL-Varianten vorherige Diffusionsmodelle übertrumpfen und neue State-of-the-Art-FID-Scores von 1,70 auf ImageNet 256×256 und 2,89 auf ImageNet 512×512 erreichen. Projektseite: https://qihao067.github.io/projects/DiMR


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Beseitigung von Verzerrungen in der Bildgenerierung mittels mehrskaligen Diffusionsmodellen | Paper | HyperAI