17일 전

Re-Imagen: 검색 증강형 텍스트-이미지 생성기

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen
Re-Imagen: 검색 증강형 텍스트-이미지 생성기
초록

텍스트-이미지 생성에 관한 연구는 대규모 이미지-텍스트 데이터를 기반으로 훈련된 확산 모델과 자기회귀 모델의 발전으로 인해 다양한 실사적 이미지를 생성하는 데 있어 상당한 진전을 이뤘다. 최신 기술은 일반적인 대상에 대해 고품질의 이미지를 생성할 수 있지만, '초르타이(개)'나 '피카론스(음식)'와 같은 드문 대상에 대해서는 여전히 생성에 어려움을 겪는다. 이러한 문제를 해결하기 위해, 본 연구에서는 희귀하거나 미리 보지 못한 대상에 대해서도 고해상도이면서 정확한 이미지를 생성할 수 있도록 검색된 정보를 활용하는 생성 모델인 '검색 보강형 텍스트-이미지 생성기(Re-Imagen)'를 제안한다. 주어진 텍스트 프롬프트에 대해 Re-Imagen는 외부의 다중모달 지식 기반에서 관련된 (이미지, 텍스트) 쌍을 검색하고, 이를 참조하여 이미지를 생성한다. 이러한 검색 단계를 통해 Re-Imagen는 언급된 대상의 고수준 의미 정보와 저수준 시각적 세부 정보를 보완한 지식을 확보하게 되어, 해당 대상의 시각적 표현을 더 정확하게 생성할 수 있게 된다. 본 모델은 텍스트 프롬프트와 검색 정보를 동시에 기반으로 하는 (이미지, 텍스트, 검색) 삼중체로 구성된 새로운 데이터셋을 사용해 훈련하였다. 또한, 텍스트 조건과 검색 조건에 대한 분류기 없는 가이드라인을 적절히 혼합하여 텍스트와 검색 정보 간의 균형을 맞추는 새로운 샘플링 전략을 개발하였다. Re-Imagen는 COCO 및 WikiImage 데이터셋에서 FID 점수 측면에서 상당한 성능 향상을 달성하였다. 모델의 능력을 더욱 철저히 평가하기 위해, 개, 음식, 관광지, 조류, 캐릭터 등 다양한 객체 카테고리에 걸쳐 흔한 대상부터 희귀한 대상까지를 포함하는 이미지 생성 능력을 평가할 수 있는 새로운 벤치마크인 EntityDrawBench를 제안하였다. 인간 평가 결과에 따르면, Re-Imagen는 특히 드문 대상에 대해 생성 이미지의 사실성(fidelity)을 크게 향상시킬 수 있음이 확인되었다.