2달 전
GLIGEN: 오픈셋 지상 텍스트-이미지 생성
Li, Yuheng ; Liu, Haotian ; Wu, Qingyang ; Mu, Fangzhou ; Yang, Jianwei ; Gao, Jianfeng ; Li, Chunyuan ; Lee, Yong Jae

초록
대규모 텍스트-이미지 확산 모델은 놀라운 발전을 이룩하였습니다. 그러나 현재의 관행은 텍스트 입력만을 사용하는 것이어서, 이는 제어성에 방해가 될 수 있습니다. 본 연구에서는 GLIGEN(Grounded-Language-to-Image Generation)이라는 새로운 접근법을 제안합니다. 이 방법은 기존의 사전 학습된 텍스트-이미지 확산 모델의 기능을 확장하여, 지면 정보(grounding inputs)를 조건으로 사용할 수 있도록 합니다. 사전 학습된 모델의 방대한 개념 지식을 유지하기 위해, 모든 가중치를 고정하고 게이트 메커니즘을 통해 지면 정보를 새로운 학습 가능한 계층에 주입합니다. 우리의 모델은 캡션과 바운딩 박스 조건 입력을 사용하여 개방형 세계에서 지면 기반 텍스트-이미지 생성을 달성하며, 지면 능력은 새로운 공간 구성과 개념에도 잘 일반화됩니다. GLIGEN은 COCO와 LVIS 데이터셋에서 제로샷 성능이 기존의 감독된 레이아웃-이미지 베이스라인보다 크게 우수함을 보여주었습니다.