2달 전

주목기반 인코더-디코더 네트워크를 이용한 비디오 요약

Zhong Ji; Kailin Xiong; Yanwei Pang; Xuelong Li
주목기반 인코더-디코더 네트워크를 이용한 비디오 요약
초록

본 논문은 감독된 비디오 요약 문제를 시퀀스-투-시퀀스 학습 문제로 정식화하여 다루고 있으며, 여기서 입력은 원본 비디오 프레임의 시퀀스이고 출력은 키샷 시퀀스입니다. 우리의 주요 아이디어는 인간이 키샷을 선택하는 방식을 모방하기 위해 주의 메커니즘을 갖춘 깊은 요약 네트워크를 학습하는 것입니다. 이를 위해 우리는 주의 기반 인코더-디코더 네트워크(Attentive encoder-decoder networks for Video Summarization, AVS)라는 새로운 비디오 요약 프레임워크를 제안합니다. 이 프레임워크에서 인코더는 양방향 장단기 기억(Bidirectional Long Short-Term Memory, BiLSTM)을 사용하여 입력 비디오 프레임 간의 문맥 정보를 인코딩합니다. 디코더에 대해서는 덧셈 및 곱셈 목적 함수를 각각 사용하여 두 가지 주의 기반 LSTM 네트워크를 탐구하였습니다. 세 가지 비디오 요약 벤치마크 데이터셋인 SumMe와 TVSum에서 광범위한 실험이 수행되었습니다. 실험 결과는 제안된 AVS 기반 접근법이 최신 접근법 대비 우수함을 입증하며, 두 데이터셋에서 각각 0.8%에서 3%까지 뚜렷한 개선 효과를 보였습니다.