17일 전

HiSum: 비디오 하이라이트 탐지 및 요약을 위한 대규모 데이터셋

HiSum: 비디오 하이라이트 탐지 및 요약을 위한 대규모 데이터셋
초록

비디오 하이라이트 탐지란 긴 영상에서 가장 매력적인 순간들을 자동으로 선별하는 작업이다. 이 문제는 현실 세계의 다양한 영상에서 하이라이트를 일반화된 방식으로 학습하는 것을 목표로 하기 때문에 매우 도전적인 과제이다. 하이라이트의 정의는 개인마다 다를 수 있기 때문에, 이 작업은 본질적으로 주관성이 강하다. 따라서 일관되고 의미 있는 하이라이트를 탐지하기 위해 기존의 벤치마크 데이터셋은 다수(5~20명)의 평가자들이 라벨링을 수행하였다. 그러나 수작업 라벨링의 비용이 높기 때문에, 기존의 대부분의 공개 벤치마크 데이터셋은 매우 작은 규모로, 단지 수십 개 또는 수백 개의 영상만 포함하고 있다. 이러한 부족한 데이터셋 규모는 평가의 불안정성이나 학습-테스트 분할에 대한 높은 민감성과 같은 여러 문제를 야기한다. 본 연구에서는 31,892개의 영상과 영상당 5만 명 이상의 사용자로부터 집계된 신뢰할 수 있는 라벨을 포함하는 대규모 비디오 하이라이트 탐지 및 요약 데이터셋인 Mr. HiSum을 제안한다. 우리는 교차 데이터셋 전이 및 사용자 실험을 통해 라벨의 신뢰성을 프레임의 중요도 측면에서 실증적으로 입증한다.