HyperAIHyperAI
vor 17 Tagen

Lernen von stapelbaren und überspringbaren LEGO-Steinen für effiziente, umkonfigurierbare und variabel auflösende Diffusionsmodellierung

Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou
Lernen von stapelbaren und überspringbaren LEGO-Steinen für effiziente, umkonfigurierbare und variabel auflösende Diffusionsmodellierung
Abstract

Diffusionsmodelle zeichnen sich durch ihre Fähigkeit aus, foto-realistische Bilder zu generieren, erfordern jedoch erhebliche rechnerische Kosten sowohl im Training als auch bei der Sampling-Phase. Obwohl verschiedene Techniken diese rechnerischen Herausforderungen adressieren, bleibt ein bisher wenig erforschtes Problem die Entwicklung eines effizienten und anpassungsfähigen Netzwerk-Backbones für die iterative Verbesserung. Aktuelle Ansätze wie U-Net oder Vision Transformer stützen sich oft auf ressourcenintensive tiefe Netzwerke und verfügen über eine geringe Flexibilität, um Bilder mit variabler Auflösung zu erzeugen oder ein kleineres Netzwerk als im Training einzusetzen. Diese Studie führt LEGO-Steine ein, die nahtlos lokale Merkmalsverstärkung (Local-feature Enrichment) und globale Inhaltsorchestrierung (Global-content Orchestration) integrieren. Diese Steine können beliebig gestapelt werden, um einen rekonfigurierbaren Diffusions-Backbone zur Testzeit zu schaffen, wodurch bestimmte Steine selektiv übersprungen werden können, um die Sampling-Kosten zu senken und gleichzeitig Bilder mit höherer Auflösung als die Trainingsdaten zu erzeugen. LEGO-Steine bereichern lokale Regionen mittels eines MLP und transformieren diese mittels eines Transformer-Blocks, wobei eine konsistente Bildauflösung in voller Auflösung über alle Steine hinweg gewahrt bleibt. Experimentelle Ergebnisse zeigen, dass LEGO-Steine die Trainingseffizienz steigern, die Konvergenz beschleunigen und die Erzeugung von Bildern mit variabler Auflösung ermöglichen, ohne die generative Leistung zu beeinträchtigen. Darüber hinaus reduziert LEGO signifikant die Sampling-Zeit im Vergleich zu anderen Methoden und etabliert sich somit als wertvolle Erweiterung für Diffusionsmodelle. Der Quellcode und die Projektseite sind unter https://jegzheng.github.io/LEGODiffusion verfügbar.

Lernen von stapelbaren und überspringbaren LEGO-Steinen für effiziente, umkonfigurierbare und variabel auflösende Diffusionsmodellierung | Neueste Forschungsarbeiten | HyperAI