레이아웃 안내된 이미지 생성을 위한 진단 벤치마크 및 반복적인 인페인팅

공간 제어는 제어 가능한 이미지 생성의 핵심 기능입니다.레이아웃 안내를 받은 이미지 생성 분야에서의 발전은 유사한 공간 구성이 있는 분포 내(in-distribution, ID) 데이터셋에서 유망한 결과를 보여주었습니다. 그러나 이러한 모델들이 임의적이고 미처 본 적 없는 레이아웃을 가진 분포 외(out-of-distribution, OOD) 샘플에 직면했을 때 어떻게 작동하는지는 불분명합니다. 이 논문에서는 레이아웃 안내를 받은 이미지 생성을 위한 진단 벤치마크인 LayoutBench를 제안합니다. 이 벤치마크는 숫자, 위치, 크기, 형태 등 네 가지 범주의 공간 제어 능력을 검사합니다. 우리는 최근 두 가지 대표적인 레이아웃 안내를 받은 이미지 생성 방법을 벤치마킹하여, 좋은 ID 레이아웃 제어가 실제 환경에서 임의적인 레이아웃(예: 경계에 있는 객체)으로 일반화되는 경우가 많지 않다는 것을 관찰하였습니다. 다음으로, 우리는 inpainting을 통해 단계적으로 전경과 배경 영역을 생성하는 새로운 기준 모델인 IterInpaint를 제안합니다. 이 모델은 LayoutBench에서 기존 모델들보다 더 강한 일반화 능력을 보여줍니다. 우리는 LayoutBench의 네 가지 기술에 대해 정량적 및 정성적 평가와 세밀한 분석을 수행하여 기존 모델들의 약점을 파악하였습니다. 또한, IterInpaint에 대한 포괄적인 감소 연구(ablation studies)를 수행하였으며, 여기에는 학습 작업 비율, crop&paste 대비 repaint, 그리고 생성 순서 등을 포함합니다. 마지막으로, 실제 객체를 포함하는 OOD 레이아웃을 위한 새로운 벤치마크인 LayoutBench-COCO에서 다양한 사전 훈련된 레이아웃 안내를 받은 이미지 생성 모델들의 zero-shot 성능을 평가하였습니다. 우리의 IterInpaint는 모든 네 가지 구분에서 최신 기술(SOTA) 기준 모델들을 일관되게 능가하였습니다. 프로젝트 웹사이트: https://layoutbench.github.io