Command Palette
Search for a command to run...
Xuechao Zou Shun Zhang Xing Fu Yue Li Kai Li Yushe Cao Congyan Lang Pin Tao Junliang Xing

要約
制御可能な顔生成は、意味的制御性と写実性の間にある複雑なバランスを保つ必要があるため、生成モデルにおいて重要な課題を抱えている。既存の手法は、意味的制御を生成パイプラインから分離する点で困難を抱えているが、本研究では専門性の観点から、拡散変換器(Diffusion Transformers: DiTs)のアーキテクチャ的潜在能力を再評価する。本論文では、以下の特徴を持つ新規フレームワーク「Face-MoGLE」を提案する:(1)マスク条件付き潜在空間の因子分解による意味的分離型潜在モデリングにより、属性の精密な操作を実現;(2)グローバルなエキスパートとローカルなエキスパートの混合構造により、全体構造および領域レベルの意味情報を捉え、細粒度な制御性を達成;(3)時間依存係数を生成する動的ゲーティングネットワークにより、拡散ステップおよび空間的位置に応じた係数の進化を実現。Face-MoGLEは、高品質かつ制御可能な顔生成のための強力かつ柔軟なソリューションを提供し、生成モデルおよびセキュリティ応用において大きな潜在能力を有する。広範な実験により、マルチモーダルおよびモノモーダルな顔生成設定における有効性、および強力なゼロショット一般化能力が確認された。プロジェクトページは https://github.com/XavierJiezou/Face-MoGLE にて公開されている。