Command Palette
Search for a command to run...
OmniPSD: 확산 트랜스포머를 활용한 계층적 PSD 생성
OmniPSD: 확산 트랜스포머를 활용한 계층적 PSD 생성
Cheng Liu Yiren Song Haofan Wang Mike Zheng Shou
초록
최근 디퓨전 모델의 발전은 이미지 생성 및 편집 측면에서 큰 진전을 이뤘으나, 투명한 알파 채널을 가진 계층화된 PSD 파일을 생성하거나 재구성하는 것은 여전히 매우 도전적인 과제로 남아 있다. 본 연구에서는 플럭스(Flux) 생태계를 기반으로 한 통합적인 디퓨전 프레임워크인 OmniPSD를 제안한다. 이는 컨텍스트 내 학습(in-context learning)을 통해 텍스트에서 PSD 생성과 이미지에서 PSD 분해를 모두 가능하게 한다. 텍스트에서 PSD 생성의 경우, OmniPSD는 여러 타겟 레이어를 단일 캔버스 내에서 공간적으로 배치하고, 공간적 어텐션을 통해 레이어 간의 구성 관계를 학습함으로써 의미적으로 일관성 있고 계층적인 구조를 가진 레이어를 생성한다. 이미지에서 PSD 분해의 경우, 반복적인 컨텍스트 내 편집을 수행하여 텍스트 및 전경 요소를 점진적으로 추출하고 제거함으로써 단일 평면화된 이미지로부터 편집 가능한 PSD 레이어를 재구성한다. 투명도를 유지하면서 구조 학습에 영향을 주지 않는 보조 표현 모듈로 RGBA-VAE를 활용한다. 새로 제작한 RGBA 계층 데이터셋을 기반으로 수행한 광범위한 실험 결과, OmniPSD는 높은 정밀도의 생성, 구조적 일관성, 투명도 인지 능력을 달성함으로써, 디퓨전 트랜스포머 기반의 계층적 디자인 생성 및 분해에 새로운 패러다임을 제시한다.