DSNet: 비디오 요약을 위한 유연한 감지-요약 네트워크
본 논문에서는 감독형 비디오 요약을 위한 Detect-to-Summarize 네트워크(DSNet) 프레임워크를 제안한다. 제안하는 DSNet은 앵커 기반 및 앵커 자유형 두 가지 형태를 포함한다. 앵커 기반 방법은 시계열 관심 영역 제안(Temporal Interest Proposals)을 생성하여 비디오 시퀀스의 대표적인 콘텐츠를 결정하고 위치를 지정하는 데 사용되며, 앵커 자유형 방법은 사전 정의된 시계열 제안을 제거하고 직접적으로 프레임의 중요도 점수와 세그먼트 위치를 예측한다. 기존의 감독형 비디오 요약 방법들이 시계열 일관성과 완전성 제약 없이 비디오 요약을 회귀 문제로 설정한 반면, 본 연구의 관심 탐지 프레임워크는 시계열 관심 탐지 공식을 통해 시계열 일관성을 활용한 최초의 시도이다. 구체적으로 앵커 기반 접근법에서는 먼저 길이 변화에 대응할 수 있도록 다중 스케일 간격을 가진 밀도 높은 시계열 관심 제안을 생성한 후, 이를 위한 장거리 시계열 특징을 추출하여 관심 제안의 위치 회귀 및 중요도 예측을 수행한다. 특히, 생성된 요약의 정확성과 완전성을 보장하기 위해 긍정적 및 부정적 세그먼트 모두를 할당한다. 앵커 자유형 접근법에서는 시계열 제안의 단점을 완화하기 위해 비디오 프레임의 중요도 점수와 세그먼트 위치를 직접 예측한다. 특히, 본 관심 탐지 프레임워크는 기존의 상용 감독형 비디오 요약 방법에 유연하게 통합될 수 있다. 제안한 앵커 기반 및 앵커 자유형 접근법은 SumMe 및 TVSum 데이터셋에서 평가되었으며, 실험 결과는 두 접근법의 효과성을 명확히 입증한다.