
초록
시각적 스토리텔링은 텍스트 스토리라인에서 일관된 프레임 시퀀스를 생성하면서 캐릭터와 장면의 일관성을 유지하는 과정을 포함합니다. 기존의 자기 회귀 방법들은 이전 프레임-문장 쌍에 의존하여 높은 메모리 사용량, 느린 생성 속도, 그리고 제한적인 맥락 통합 문제를 겪고 있습니다. 이러한 문제들을 해결하기 위해, 우리는 ContextualStory라는 새로운 프레임워크를 제안합니다. ContextualStory는 공간적으로 강화된 시간 주의 메커니즘(Spatially-Enhanced Temporal Attention)을 활용하여 공간적과 시간적 종속성을 포착하고, 중요한 캐릭터 움직임을 효과적으로 처리합니다. 또한, 스토리라인 맥락화기(Storyline Contextualizer)를 도입하여 스토리라인 임베딩의 맥락을 풍부하게 하고, StoryFlow 어댑터를 통해 프레임 간의 장면 변화를 측정하여 모델을 안내합니다. PororoSV와 FlintstonesSV 데이터셋을 이용한 광범위한 실험 결과, ContextualStory가 스토리 시각화와 연속성 면에서 기존 최신 방법(SOTA)보다 크게 우수함이 입증되었습니다. 코드는 https://github.com/sixiaozheng/ContextualStory에서 제공됩니다.