2달 전
LayoutDiffusion: 레이아웃-이미지 생성을 위한 제어 가능한 확산 모델
Zheng, Guangcong ; Zhou, Xianpan ; Li, Xuewei ; Qi, Zhongang ; Shan, Ying ; Li, Xi

초록
최근, 확산 모델은 이미지 합성 분야에서 큰 성공을 거두었습니다. 그러나 여러 개의 객체가 포함된 복잡한 장면을 가진 레이아웃-이미지 생성에서는 전반적인 레이아웃 맵과 각 상세 객체에 대한 강력한 제어를 수행하는 것이 여전히 어려운 과제입니다. 본 논문에서는 이전 연구보다 더 높은 생성 품질과 더 큰 제어력을 얻을 수 있는 확산 모델인 LayoutDiffusion을 제안합니다. 이미지와 레이아웃 간의 다중모드 융합 문제를 해결하기 위해, 지역 정보를 포함하는 구조적 이미지 패치를 구성하고, 이를 특수한 레이아웃으로 변환하여 일반적인 레이아웃과 통합된 형태로 융합하는 방법을 제안합니다. 또한, 여러 객체 간의 관계를 모델링하고 객체 인식 및 위치 감응성을 고려하여 공간 관련 정보를 정확하게 제어할 수 있도록 Layout Fusion Module (LFM)과 Object-aware Cross Attention (OaCA)를 제안하였습니다. 광범위한 실험 결과, 본 연구의 LayoutDiffusion은 COCO-stuff 데이터셋에서 FID와 CAS 지표에서 각각 46.35%, 26.70% 개선되었으며, VG 데이터셋에서는 44.29%, 41.82% 개선된 것으로 나타났습니다. 코드는 https://github.com/ZGCTroy/LayoutDiffusion에서 제공됩니다.