Command Palette
Search for a command to run...
Mischung aus globalen und lokalen Experte mit Diffusions-Transformer für steuerbare Gesichtsgenerierung
Xuechao Zou Shun Zhang Xing Fu Yue Li Kai Li Yushe Cao Congyan Lang Pin Tao Junliang Xing

Abstract
Die kontrollierbare Gesichtsgenerierung stellt aufgrund des komplexen Gleichgewichts zwischen semantischer Kontrollierbarkeit und Fotorealismus bedeutende Herausforderungen im Bereich der generativen Modellierung dar. Während bestehende Ansätze Schwierigkeiten haben, semantische Steuerungselemente von den Generierungspipelines zu entkoppeln, untersuchen wir erneut das architektonische Potenzial von Diffusion Transformers (DiTs) aus der Perspektive der Expertenspezialisierung. In dieser Arbeit präsentieren wir Face-MoGLE, einen neuartigen Ansatz mit folgenden Merkmalen: (1) semantisch entkoppelte latente Modellierung mittels maskenbedingter Raumfaktorisierung, die präzise Attributmanipulation ermöglicht; (2) eine Mischung aus globalen und lokalen Experte, die sowohl die gesamte Struktur als auch regionale Semantik erfassen, um feinabgestimmte Kontrollierbarkeit zu gewährleisten; (3) ein dynamisches Gating-Netzwerk, das zeitabhängige Koeffizienten erzeugt, die sich mit den Diffusionsstufen und räumlichen Positionen entwickeln. Face-MoGLE bietet eine leistungsstarke und flexible Lösung für hochwertige, kontrollierbare Gesichtsgenerierung und zeigt großes Potenzial für Anwendungen in der generativen Modellierung und der Sicherheitstechnik. Umfangreiche Experimente belegen dessen Wirksamkeit in multimodalen und monomodalen Szenarien der Gesichtsgenerierung sowie seine robuste Zero-Shot-Verallgemeinerungsfähigkeit. Die Projektseite ist unter https://github.com/XavierJiezou/Face-MoGLE verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.