2달 전

온라인 텍스트 확장과 컨텍스트 메모리를 활용한 스토리 시각화

Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi
온라인 텍스트 확장과 컨텍스트 메모리를 활용한 스토리 시각화
초록

스토리 시각화(SV)는 텍스트 설명에서 시각적 세부 정보를 렌더링하는 것뿐만 아니라 여러 문장에 걸쳐 장기적인 맥락을 인코딩해야 하는 어려움으로 인해 도전적인 텍스트-이미지 생성 작업입니다. 이전 연구들은 주로 각 문장에 대해 의미적으로 관련된 이미지를 생성하는 데 초점을 맞추었지만, 주어진 단락 전체에 걸친 맥락을 인코딩하여 문맥적으로 설득력 있는 이미지를 생성하는 것(예: 올바른 캐릭터나 적절한 배경을 가진 장면)은 여전히 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 양방향 트랜스포머 프레임워크와 온라인 텍스트 증강을 활용하여 훈련 중 보조 감독으로 사용되는 여러 유사 설명을 생성하는 새로운 메모리 구조를 제안합니다. 이 방법은 유사하거나 더 적은 계산 복잡도로, 두 가지 인기 있는 SV 벤치마크인 Pororo-SV와 Flintstones-SV에서 다양한 지표(FID, 캐릭터 F1, 프레임 정확도, BLEU-2/3, R-정밀도)에서 현저히 최신 기술보다 우수한 성능을 보였습니다.

온라인 텍스트 확장과 컨텍스트 메모리를 활용한 스토리 시각화 | 최신 연구 논문 | HyperAI초신경