2달 전
Coherent 한 이야기 생성을 위한 Auto-Regressive Latent Diffusion 모델
Xichen Pan; Pengda Qin; Yuhong Li; Hui Xue; Wenhu Chen

초록
조건부 확산 모델은 최고 수준의 텍스트-이미지 합성 능력을 보여주었습니다. 최근 대부분의 연구는 독립적인 이미지를 생성하는 데 초점을 맞추고 있지만, 실제 응용 분야에서는 이야기를 전개하기 위해 일련의 일관된 이미지를 생성하는 것이 일반적이고 필수적입니다. 본 연구에서는 주로 스토리 시각화와 연속화 작업에 중점을 두고, 이전 캡션과 생성된 이미지에 자동 회귀적으로 조건부로 적용되는 잠재 확산 모델인 AR-LDM을 제안합니다. 또한, AR-LDM은 새로운 캐릭터를 적응함으로써 일반화할 수 있습니다. 최선의 지식으로 판단할 때, 이는 확산 모델을 활용하여 일관된 시각적 스토리를 성공적으로 생성한 첫 번째 연구입니다. 정량적 결과는 AR-LDM이 PororoSV, FlintstonesSV, 그리고 자연 이미지를 포함하는 새로 도입된 어려운 데이터셋 VIST에서 최고 수준의 FID 점수를 달성함을 보여줍니다. 대규모 인간 평가에서도 AR-LDM은 품질, 관련성, 일관성 면에서 우수한 성능을 보였습니다.