StoryDALL-E: 사전 학습된 텍스트-이미지 변환기의 스토리 연속 생성에 대한 적응

최근 텍스트-이미지 합성 기술의 발전으로 주어진 텍스트로부터 시각화를 생성하는 데 뛰어난 능력을 가진 대규모 사전 학습 변환기 모델들이 등장했습니다. 그러나 이러한 모델들은 스토리 시각화와 같은 전문적인 작업에 적합하지 않습니다. 스토리 시각화는 일련의 캡션에 따라 이미지 시퀀스를 생성해야 하며, 이는 서사 구조를 형성합니다. 또한, 우리는 새로운 서사에서 미처 본 적 없는 플롯과 캐릭터에 대한 일반화가 이루어지지 않는다는 문제점을 발견하였습니다. 따라서, 먼저 소스 이미지를 조건으로 하는 생성된 시각적 스토리를 제안하여 새로운 캐릭터가 포함된 서사에 대해 더 나은 일반화를 가능하게 하는 스토리 연속 작업을 제안합니다. 그 다음, (a) 순차적 이미지 생성 및 (b) 초기 프레임에서 관련 요소를 복사하는 작업별 모듈로 사전 학습된 텍스트-이미지 합성 모델들을 강화하거나 '레트로핏'합니다. 그런 다음, 사전 학습된 모델의 전체 모델 미세 조정(full-model finetuning)과 파라미터 효율성을 높이는 프롬프트 기반 조정(prompt-based tuning)을 탐색합니다.우리는 우리의 접근 방식인 StoryDALL-E를 두 개의 기존 데이터셋인 PororoSV와 FlintstonesSV에서 평가하였으며, 비디오 캡셔닝 데이터셋에서 수집한 새로운 데이터셋 DiDeMoSV도 소개하였습니다. 또한, 스토리 연속을 위한 생성적 대립 신경망(Generative Adversarial Networks, GAN) 기반 모델인 StoryGANc를 개발하고, 이를 StoryDALL-E 모델과 비교하여 우리 접근 방식의 장점을 입증하였습니다. 우리는 레트로핏 접근 방식이 스토리 연속 작업에서 GAN 기반 모델보다 우수하며, 소스 이미지에서 시각적 요소를 복사함으로써 생성된 시각적 스토리의 연속성을 개선한다는 것을 보여주었습니다.마지막으로, 우리의 분석은 사전 학습된 변환기들이 여러 캐릭터가 포함된 서사를 이해하는 데 어려움을 겪고 있다는 점을 제시하였습니다. 전반적으로, 우리의 연구는 사전 학습된 텍스트-이미지 합성 모델들이 스토리 연속과 같은 복잡하고 저자원 작업에 적용될 수 있음을 입증하고 있습니다.