3달 전
이미지 집합을 스토리로 설명하기 위한 비전 트랜스포머 기반 모델
Zainy M. Malakan, Ghulam Mubashar Hassan, Ajmal Mian

초록
시각적 스토리텔링(Visual Story-Telling)이란 일련의 이미지로부터 다문장으로 구성된 스토리를 생성하는 과정을 의미한다. 입력된 이미지 내부에 담긴 시각적 다양성과 맥락 정보를 적절히 포함하는 것은 시각적 스토리텔링에서 가장 도전적인 과제 중 하나이다. 이로 인해 이미지 집합에서 생성된 스토리는 종종 통일성, 관련성, 의미적 관계가 부족한 경우가 많다. 본 논문에서는 일련의 이미지를 스토리로 묘사하기 위한 새로운 비전 트랜스포머 기반 모델을 제안한다. 제안된 방법은 비전 트랜스포머(Vision Transformer, ViT)를 사용하여 입력 이미지의 고유한 특징을 추출한다. 먼저 입력 이미지를 16×16 크기의 패치로 분할하고, 각 패치를 평탄화한 후 선형 투영하여 벡터 시퀀스로 변환한다. 단일 이미지를 다수의 이미지 패치로 변환하는 과정은 입력 시각 패턴의 시각적 다양성을 효과적으로 포착할 수 있다. 이러한 특징 벡터는 순차적 인코더의 일부인 양방향 LSTM(Bidirectional-LSTM)에 입력되어, 모든 이미지 패치에 대한 과거 및 미래 맥락 정보를 학습한다. 이후, 주의 메커니즘(attention mechanism)을 도입하여 언어 모델인 모그리파이어-LSTM(Mogrifier-LSTM)에 공급되는 데이터의 구분 능력을 강화한다. 제안된 모델의 성능은 시각적 스토리텔링 데이터셋(VIST)을 이용해 평가하였으며, 실험 결과 기존 최고 성능 모델들을 상회함을 확인하였다.