Command Palette

Search for a command to run...

2달 전

확산 트랜스포머를 활용한 글로벌 및 로컬 전문가 혼합을 통한 조절 가능한 얼굴 생성

Xuechao Zou Shun Zhang Xing Fu Yue Li Kai Li Yushe Cao Congyan Lang Pin Tao Junliang Xing

확산 트랜스포머를 활용한 글로벌 및 로컬 전문가 혼합을 통한 조절 가능한 얼굴 생성

초록

제어 가능한 얼굴 생성은 의미적 제어 가능성과 사실적인 이미지 품질 사이의 복잡한 균형을 요구하기 때문에 생성 모델링 분야에서 핵심적인 도전 과제를 안고 있다. 기존의 접근 방식은 의미적 제어를 생성 파이프라인에서 분리하는 데 어려움을 겪는 반면, 본 연구는 전문가 전문화의 관점에서 확산 변환기(Diffusion Transformers, DiTs)의 아키텍처 잠재력을 재조명한다. 본 논문은 다음과 같은 특징을 갖는 새로운 프레임워크인 Face-MoGLE을 제안한다: (1) 마스크 조건 기반의 잠재 공간 분해를 통한 의미적 분리된 잠재 모델링으로, 정밀한 속성 조작을 가능하게 한다; (2) 전반적인 구조와 영역 수준의 의미를 동시에 포착하는 전역 전문가와 국부 전문가의 혼합 구조를 통해 세밀한 제어 가능성을 달성한다; (3) 확산 단계와 공간적 위치에 따라 동적으로 변화하는 시간 의존적 계수를 생성하는 동적 게이팅 네트워크. Face-MoGLE은 고품질의 제어 가능한 얼굴 생성을 위한 강력하고 유연한 솔루션을 제공하며, 생성 모델링 및 보안 응용 분야에서 큰 잠재력을 지닌다. 광범위한 실험을 통해 다중 모달 및 단일 모달 얼굴 생성 환경에서의 효과성과 강력한 제로샷 일반화 능력을 입증하였다. 프로젝트 페이지는 https://github.com/XavierJiezou/Face-MoGLE 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
확산 트랜스포머를 활용한 글로벌 및 로컬 전문가 혼합을 통한 조절 가능한 얼굴 생성 | 연구 논문 | HyperAI초신경