7일 전

MMT: 다중모달 메모리 트랜스포머를 활용한 이미지 유도형 스토리 엔딩 생성

{Changsheng Xu, Quan Fang, Shengsheng Qian, Dizhan Xue}
초록

이미지 유도형 스토리 엔딩 생성(Image-guided Story Ending Generation, IgSEG)은 주어진 다문장 스토리 플롯과 관련 이미지를 기반으로 스토리의 결말을 생성하는 최근 제안된 과제로, 스토리 생성의 특정 형태이다. 기존의 이미지 설명 생성(Image Captioning) 또는 스토리 엔딩 생성 과제들과 달리, IgSEG은 문맥적 논리와 관련 시각적 개념 양쪽 모두에 부합하는 사실적인 설명을 생성하는 것을 목표로 한다. 현재까지 제안된 IgSEG 관련 기법들은 다모달 정보 간의 관계를 무시하고 있으며, 다모달 특징을 적절히 통합하지 못하고 있다. 따라서 본 연구에서는 이러한 문제를 해결하기 위해, 문맥 정보와 시각 정보를 모델링하고 융합하여 IgSEG에 필요한 다모달 종속성을 효과적으로 포착할 수 있는 엔드투엔드 프레임워크인 다모달 메모리 트랜스포머(Multimodal Memory Transformer, MMT)를 제안한다. 먼저, 각 모달에 특화된 대규모 사전 학습된 인코더를 활용하여 텍스트 및 시각 특징을 별도로 추출한다. 다음으로, 메모리 증강형 크로스모달 어텐션 네트워크를 사용하여 크로스모달 관계를 학습하고 세밀한 특징 융합을 효과적으로 수행한다. 마지막으로, 다모달 트랜스포머 디코더가 다모달 특징 간의 어텐션을 구성함으로써 스토리 내 종속성을 학습하고, 정보성 있고 타당하며 일관성 있는 스토리 엔딩을 생성한다. 실험 결과를 통해, 두 개의 벤치마크 데이터셋에서 제안한 MMT가 최첨단 기법들에 비해 상당한 성능 향상을 보임을 자동 평가 및 인공 평가 결과를 통해 입증하였다.

MMT: 다중모달 메모리 트랜스포머를 활용한 이미지 유도형 스토리 엔딩 생성 | 최신 연구 논문 | HyperAI초신경