BoxDiff: 훈련이 필요 없는 박스 제약 조건을 사용한 텍스트-이미지 합성

최근의 텍스트-이미지 확산 모델들은 높은 품질의 이미지를 생성하는 데 있어 놀라운 능력을 보여주었습니다. 그러나 연구자들은 주로 텍스트 프롬프트만을 사용하여 이미지를 합성하는 방법에 초점을 맞추었습니다. 일부 연구에서는 다른 모달리티를 조건으로 사용하는 방법을 탐구했지만, 상당한 양의 짝짓기 데이터(예: 박스/마스크-이미지 쌍)와 미세조정(fine-tuning) 시간이 필요했습니다. 이러한 짝짓기 데이터는 수집하기에 시간과 노동이 많이 들며, 폐쇄된 집합에 제한되어 있으므로, 이는 개방형 세계에서의 응용 분야에서 잠재적인 병목 현상이 될 수 있습니다.본 논문은 사용자가 제공하는 가장 단순한 형태의 조건, 예를 들어 박스나 스케치(scribble)에 초점을 맞춥니다. 위에서 언급한 문제를 완화하기 위해, 우리는 주어진 공간 조건에 따라 합성된 이미지에서 객체와 문맥을 제어할 수 있는 추가 학습이 필요하지 않은 방법을 제안합니다. 구체적으로, Inner-Box, Outer-Box, 그리고 Corner Constraints라는 세 가지 공간 제약 조건을 설계하여 확산 모델들의 노이즈 제거(denoising) 과정에 원활하게 통합하였습니다. 이 방법은 추가적인 학습이나 대규모 주석화 레이아웃 데이터 없이도 적용됩니다.다양한 실험 결과를 통해 제안된 제약 조건들이 이미지에서 무엇을 어떻게 표현할 것인지 제어하면서도 확산 모델의 고충실도(high fidelity) 합성 능력과 다양한 개념 범위(diverse concept coverage)를 유지할 수 있음을 입증하였습니다. 코드는 https://github.com/showlab/BoxDiff 에서 공개적으로 이용 가능합니다.