ReCo: 지역 제어 텍스트-이미지 생성

최근, 대규모 텍스트-이미지(T2I) 모델들이 고정밀 이미지를 생성하는 데 있어 뛰어난 성능을 보여주고 있지만, 특정 영역에 대한 정확한 제어 능력은 제한적입니다. 예를 들어, 자유형식의 텍스트 설명을 통해 특정 영역의 내용을 정확히 지정하는 것이 어렵습니다. 본 논문에서는 이러한 지역 제어를 위한 효과적인 기술을 제안합니다. 우리는 T2I 모델의 입력에 추가적인 위치 토큰 세트를 포함시켜 이를 강화하였습니다. 이 위치 토큰들은 양자화된 공간 좌표를 나타냅니다. 각 영역은 상단 왼쪽과 하단 오른쪽 코너를 나타내는 네 개의 위치 토큰으로 지정되며, 그 다음에 자유롭게 작성된 자연어 영역 설명이 따릅니다. 그런 다음, 이러한 새로운 입력 인터페이스로事前訓練된 T2I 모델을 미세 조정(fine-tune)하였습니다.우리의 모델은 ReCo(Region-Controlled T2I)라고 명명되었으며, 제약된 범주 집합에서 도출된 객체 라벨이 아닌 자유롭게 작성된 영역 텍스트로 임의의 객체에 대해 지역 제어를 가능하게 합니다. 실험적으로 ReCo는 위치 정보 단어로 강화된 T2I 모델(FID: 8.82→7.36, SceneFID: 15.54→6.51 on COCO)보다 더 우수한 이미지 품질을 달성하였으며, 객체가 더욱 정확히 배치되는 것으로 나타났습니다. COCO 데이터셋에서 ReCo는 20.40%의 지역 분류 정확도 개선을 보였습니다.또한, 우리는 ReCo가 자유형식의 영역 설명을 통해 객체 수량, 공간 관계 및 색상/크기와 같은 영역 속성을 더 잘 제어할 수 있음을 입증하였습니다. PaintSkill에서 수행한 인간 평가는 ReCo가 T2I 모델보다 올바른 객체 수량과 공간 관계를 가진 이미지를 생성하는 데 +19.28%와 +17.21% 더 정확하다는 것을 보여주었습니다.注: "事前訓練된" 是中文,正确的韩文应该是 "사전 학습된".修正后的翻译如下:최근, 대규모 텍스트-이미지(T2I) 모델들이 고정밀 이미지를 생성하는 데 있어 뛰어난 성능을 보여주고 있지만, 특정 영역에 대한 정확한 제어 능력은 제한적입니다. 예를 들어, 자유형식의 �텍스트 설명을 통해 특정 영역의 내용을 정확히 지정하는 것이 어렵습니다. 본 논문에서는 이러한 지역 제어를 위한 효과적인 기술을 제안합니다. 우리는 T2I 모델의 입력에 추가적인 위치 토큰 세트를 포함시켜 이를 강화하였습니다. 이 위치 토큰들은 양자화된 공간 좌표를 나타냅니다. 각 영역은 상단 왼쪽과 하단 오른쪽 코너를 나타내는 네 개의 위치 토큰으로 지정되며, 그 다음에 자유롭게 작성된 자연어 영역 설명이 따릅니다. 그런 다음, 이러한 새로운 입력 인터페이스로 사전 학습된 T2I 모델을 미세 조정(fine-tune)하였습니다.우리의 모델은 ReCo(Region-Controlled T2I)라고 명명되었으며, 제약된 범주 집합에서 도출된 객체 라벨이 아닌 자유롭게 작성된 영역 텍스트로 임의의 객체에 대해 지역 제어를 가능하게 합니다. 실험적으로 ReCo는 위치 정보 단어로 강화된 T2I 모델(FID: 8.82→7.36, SceneFID: 15.54→6.51 on COCO)보다 더 우수한 이미지 품질을 달성하였으며, 객체가 더욱 정확히 배치되는 것으로 나타났습니다. COCO 데이터셋에서 ReCo는 20.40%의 지역 분류 정확도 개선을 보였습니다.또한, 우리는 ReCo가 자유형식의 영역 설명을 통해 객체 수량, 공간 관계 및 색상/크기와 같은 영역 속성을 더 잘 제어할 수 있음을 입증하였습니다. PaintSkill에서 수행한 인간 평가는 ReCo가 T2I 모델보다 올바른 객체 수량과 공간 관계를 가진 이미지를 생성하는 데 +19.28%와 +17.21% 더 정확하다는 것을 보여주었습니다.希望这能符合您的要求。如果有任何进一步的修改或调整,请随时告知。