HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Mischung aus globalen und lokalen Experte mit Diffusions-Transformer für steuerbare Gesichtsgenerierung

Xuechao Zou Shun Zhang Xing Fu Yue Li Kai Li Yushe Cao Congyan Lang Pin Tao Junliang Xing

Mischung aus globalen und lokalen Experte mit Diffusions-Transformer für steuerbare Gesichtsgenerierung

Abstract

Die kontrollierbare Gesichtsgenerierung stellt aufgrund des komplexen Gleichgewichts zwischen semantischer Kontrollierbarkeit und Fotorealismus bedeutende Herausforderungen im Bereich der generativen Modellierung dar. Während bestehende Ansätze Schwierigkeiten haben, semantische Steuerungselemente von den Generierungspipelines zu entkoppeln, untersuchen wir erneut das architektonische Potenzial von Diffusion Transformers (DiTs) aus der Perspektive der Expertenspezialisierung. In dieser Arbeit präsentieren wir Face-MoGLE, einen neuartigen Ansatz mit folgenden Merkmalen: (1) semantisch entkoppelte latente Modellierung mittels maskenbedingter Raumfaktorisierung, die präzise Attributmanipulation ermöglicht; (2) eine Mischung aus globalen und lokalen Experte, die sowohl die gesamte Struktur als auch regionale Semantik erfassen, um feinabgestimmte Kontrollierbarkeit zu gewährleisten; (3) ein dynamisches Gating-Netzwerk, das zeitabhängige Koeffizienten erzeugt, die sich mit den Diffusionsstufen und räumlichen Positionen entwickeln. Face-MoGLE bietet eine leistungsstarke und flexible Lösung für hochwertige, kontrollierbare Gesichtsgenerierung und zeigt großes Potenzial für Anwendungen in der generativen Modellierung und der Sicherheitstechnik. Umfangreiche Experimente belegen dessen Wirksamkeit in multimodalen und monomodalen Szenarien der Gesichtsgenerierung sowie seine robuste Zero-Shot-Verallgemeinerungsfähigkeit. Die Projektseite ist unter https://github.com/XavierJiezou/Face-MoGLE verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mischung aus globalen und lokalen Experte mit Diffusions-Transformer für steuerbare Gesichtsgenerierung | Forschungsarbeiten | HyperAI