17일 전

Make-A-Scene: 인간 사전 지식을 활용한 장면 기반 텍스트-to-이미지 생성

Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman
Make-A-Scene: 인간 사전 지식을 활용한 장면 기반 텍스트-to-이미지 생성
초록

최근의 텍스트-이미지 생성 기법들은 텍스트와 이미지 도메인 간의 간단하면서도 매력적인 변환 능력을 제공하고 있다. 이러한 기법들은 생성된 이미지의 정밀도와 텍스트의 관련성 측면에서 점진적인 개선을 이뤄냈지만, 여전히 적용 가능성과 품질을 제한하는 핵심적인 격차들이 남아 있다. 본 연구에서는 다음과 같은 세 가지 측면에서 이러한 격차를 해결하는 새로운 텍스트-이미지 생성 방법을 제안한다. (i) 텍스트 외에 장면(scene)이라는 간단한 제어 메커니즘을 도입하여 텍스트와 보완적인 제어를 가능하게 한다. (ii) 얼굴 및 주목할 만한 객체와 같은 핵심 이미지 영역에 대해 도메인 특화 지식을 활용함으로써 토큰화 과정의 품질을 크게 향상시킨다. (iii) 트랜스포머 기반 아키텍처에 적합하도록 분류기 없는 가이던스(classifier-free guidance) 기법을 적응시킨다. 제안한 모델은 최첨단 수준의 FID 점수와 인간 평가 결과를 달성하여, 512×512 픽셀 해상도에서 고정밀도 이미지를 생성할 수 있는 능력을 확보함으로써 시각적 품질을 크게 향상시켰다. 장면 제어 가능성 도입을 통해 다음과 같은 새로운 기능들을 실현하였다: (i) 장면 편집, (ii) 기준 장면을 활용한 텍스트 편집, (iii) 분포 외 텍스트 프롬프트 문제 해결, (iv) 스토리 일러스트 생성. 이는 우리가 작성한 스토리에서 직접 실험을 통해 입증되었다.