9일 전
문자 보존형 일관성 있는 스토리 시각화
{Hong-Han Shuai, Huiao-Han Lu, Hung-Jen Chen, Zhi Rui Tam, Yun-Zhu Song}

초록
스토리 시각화는 다문장 스토리의 각 문장을 설명하는 이미지 시퀀스를 생성하는 것을 목표로 한다. 영상 생성과 달리, 스토리 시각화는 생성된 이미지(프레임) 간의 연속성을 유지하는 데 초점을 두기보다는, 다양한 스토리 이미지 간에 캐릭터와 장면의 전반적인 일관성을 유지하는 데 중점을 둔다. 이는 스토리 문장이 이미지 생성을 위한 정보를 희박하게 제공하기 때문에 매우 도전적인 과제이다. 따라서 본 연구에서는 이러한 과제를 해결하기 위해 캐릭터 보존형 일관된 스토리 시각화(Character-Preserving Coherent Story Visualization, CP-CSV)라는 새로운 프레임워크를 제안한다. CP-CSV는 세 가지 핵심 모듈을 통해 스토리를 효과적으로 시각화한다: 스토리 및 컨텍스트 인코더(스토리 및 문장 표현 학습), 도형-배경 분할(캐릭터 및 스토리 일관성 유지에 도움이 되는 보조 과제), 도형-배경 인지 생성(도형-배경 정보를 통합한 이미지 시퀀스 생성). 또한, 스토리 시각화의 성능을 평가하기 위해 프레셰 스토리 거리(Fr'{e}chet Story Distance, FSD)라는 새로운 평가 지표를 제안한다. 광범위한 실험을 통해 CP-CSV가 캐릭터 정보의 세부 사항을 잘 유지하며, 서로 다른 프레임 간에 높은 일관성을 달성함을 입증하였고, FSD는 스토리 시각화의 성능을 더 정확하게 측정할 수 있음을 확인하였다.