2달 전
온라인 텍스트 확장과 컨텍스트 메모리를 활용한 스토리 시각화
Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi

초록
스토리 시각화(SV)는 텍스트 설명에서 시각적 세부 정보를 렌더링하는 것뿐만 아니라 여러 문장에 걸쳐 장기적인 맥락을 인코딩해야 하는 어려움으로 인해 도전적인 텍스트-이미지 생성 작업입니다. 이전 연구들은 주로 각 문장에 대해 의미적으로 관련된 이미지를 생성하는 데 초점을 맞추었지만, 주어진 단락 전체에 걸친 맥락을 인코딩하여 문맥적으로 설득력 있는 이미지를 생성하는 것(예: 올바른 캐릭터나 적절한 배경을 가진 장면)은 여전히 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 양방향 트랜스포머 프레임워크와 온라인 텍스트 증강을 활용하여 훈련 중 보조 감독으로 사용되는 여러 유사 설명을 생성하는 새로운 메모리 구조를 제안합니다. 이 방법은 유사하거나 더 적은 계산 복잡도로, 두 가지 인기 있는 SV 벤치마크인 Pororo-SV와 Flintstones-SV에서 다양한 지표(FID, 캐릭터 F1, 프레임 정확도, BLEU-2/3, R-정밀도)에서 현저히 최신 기술보다 우수한 성능을 보였습니다.