
초록
비디오 요약은 원본 비디오의 다양성과 대표성을 유지하면서 짧고 간결한 요약을 생성하여 대규모 비디오 검색을 용이하게 하는 것을 목표로 합니다. 본 논문에서는 비디오 요약을 순차적인 의사결정 과정으로 정식화하고, 이를 요약하기 위한 딥 서머리제이션 네트워크(DSN)를 개발하였습니다. DSN은 각 비디오 프레임에 대해 선택될 가능성을 예측하고, 이 확률 분포를 바탕으로 프레임을 선택하여 비디오 요약을 형성합니다. DSN의 훈련을 위해 우리는 끝까지 연결된(end-to-end), 강화 학습 기반의 프레임워크를 제안하며, 여기서 우리는 생성된 요약의 다양성과 대표성을 동시에 고려하는 새로운 보상 함수를 설계하였습니다. 이 보상 함수는 라벨이나 사용자 상호작용에 전혀 의존하지 않습니다. 훈련 중에 보상 함수는 생성된 요약이 얼마나 다양하고 대표적인지를 평가하며, DSN은 더 다양하고 더 대표적인 요약을 생성하도록 학습하여 더 높은 보상을 얻기 위해 노력합니다. 라벨이 필요하지 않으므로 우리의 방법은 완전히 감독되지 않은(unsupervised) 방식일 수 있습니다. 두 개의 벤치마크 데이터셋에서 수행한 광범위한 실험 결과, 우리의 감독되지 않은 방법이 다른 최신의 감독되지 않은 방법들보다 우수한 성능을 보였으며, 대부분의 공개된 감독(supervised) 접근법들과 비교해도 유사하거나 심지어 그보다 우월한 것으로 나타났습니다.