3달 전

스토리 내 앵커 단어 임베딩 예측을 통한 시각적 스토리텔링

Bowen Zhang, Hexiang Hu, Fei Sha
스토리 내 앵커 단어 임베딩 예측을 통한 시각적 스토리텔링
초록

시각적 스토리텔링 작업을 위한 학습 모델을 제안한다. 주요 아이디어는 이미지에서 앵커 단어 임베딩을 예측하고, 이 임베딩과 이미지 특징을 함께 사용하여 서사 문장을 생성하는 것이다. 타깃 앵커 단어 임베딩으로는 실제 스토리(ground-truth stories)에서 무작위로 샘플링한 명사들의 임베딩을 사용하여 예측기 학습을 수행한다. 이미지 시퀀스를 서사하기 위해, 예측된 앵커 단어 임베딩과 이미지 특징을 결합하여 seq2seq 모델의 입력으로 활용한다. 최신 기술과 비교해 본 모델은 설계가 간단하고 최적화가 용이하며, 대부분의 자동 평가 지표에서 최고의 성능을 달성한다. 사용자 평가에서도 경쟁 기법들을 상회하는 우수한 성능을 보였다.