16일 전
히드앤텔: 시각적 스토리텔링을 위한 포토 스트림 간의 다리 역할 학습
Yunjae Jung, Dahun Kim, Sanghyun Woo, Kyungsu Kim, Sungjin Kim, In So Kweon

초록
시각적 스토리텔링은 사진 스트림을 기반으로 짧은 이야기를 생성하는 작업이다. 기존의 시각적 캡션 생성과 달리, 스토리텔링은 사실적인 묘사뿐 아니라 인간처럼 자연스럽고 의미 있는 서사도 포함해야 한다. 그러나 VIST 데이터셋은 각 스토리당 고정된 소수의 사진만을 포함하고 있어, 시각적 스토리텔링의 주요 과제는 사진 간 시각적 갭을 서사적 상상력으로 메우는 데 있다. 본 논문에서는 이러한 시각적 갭을 연결하는 스토리라인을 명시적으로 상상하도록 학습하는 방안을 제안한다. 학습 과정에서 입력 스택에서 하나 또는 그 이상의 사진을 무작위로 제거하고, 결여된 사진이 있는 상태에서도 타당한 전체 스토리를 생성하도록 네트워크를 훈련한다. 또한 시각적 스토리텔링을 위해 사진 스트림 간의 비국소적 관계를 학습하고 기존의 RNN 기반 모델을 보완·개선할 수 있도록 설계된 '히드 앤 텔(Hide-and-Tell)' 모델을 제안한다. 실험을 통해 본 방안과 네트워크 설계가 스토리텔링에 실제로 효과적임을 입증하였으며, 자동 평가 지표에서 기존 최고 성능 모델들을 모두 상회함을 보였다. 마지막으로, 학습된 모델이 시각적 갭을 보간하여 스토리라인을 자연스럽게 연결하는 능력을 정성적으로 확인하였다.