
초록
본 논문에서는 앨범 스토리텔링 작업을 위해 계층적 사진-장면 인코더와 재구성기(reconstructor)를 포함하는 새로운 모델을 제안합니다. 사진-장면 인코더는 사진 인코더와 장면 인코더라는 두 개의 하위 인코더로 구성되며, 이들은 쌓여서 계층적으로 작동하여 앨범 내 사진들의 구조 정보를 완전히 활용합니다. 특히, 사진 인코더는 각 사진의 의미 표현을 생성하면서 그것들 사이의 시간적 관계를 활용합니다. 장면 인코더는 얻어진 사진 표현에 의존하여 장면 변화를 감지하고 장면 표현을 생성하는 역할을 합니다. 이후 디코더는 인코딩된 사진과 장면 표현들을 동적으로 주의 깊게 요약하여 앨범 표현 시퀀스를 생성하며, 이를 바탕으로 여러 개의 일관된 문장으로 구성된 스토리를 생성합니다. 앨범에서 유용한 의미 정보를 완전히 추출하기 위해, 재구성기는 디코더의 은닉 상태(hidden states)를 기반으로 요약된 앨범 표현을 재생산하는 데 사용됩니다. 제안된 모델은 엔드투엔드 방식으로 훈련될 수 있으며, 이로 인해 공개된 시각적 스토리텔링(VIST) 데이터셋에서 기존 최신 기술(state-of-the-arts)보다 성능이 향상되었습니다. 아블레이션 연구(ablation studies)는 더 나아가 제안된 계층적 사진-장면 인코더와 재구성기의 효과성을 입증하였습니다.