2달 전
다중 특성 집합을 이용한 감독형 비디오 요약 생성 방법 평행 주의 메커니즘을 통한 접근
Junaid Ahmed Ghauri; Sherzod Hakimov; Ralph Ewerth

초록
비디오의 특정 프레임이나 (짧은) 세그먼트에 중요도 점수를 할당하는 것은 요약화 과정에서 매우 중요하지만, 동시에 어려운 작업입니다. 이전 연구에서는 시각적 특징의 단일 출처만을 활용하였습니다. 본 논문에서는 시각적 콘텐츠와 움직임을 예측하기 위해 세 가지 특징 집합을 결합하는 새로운 모델 아키텍처를 제안합니다. 제안된 아키텍처는 이미지 분류 모델에서 도출된 (정적인) 시각적 콘텐츠를 나타내는 특징과 움직임 특징을 융합하기 전에 주의 메커니즘(attention mechanism)을 활용합니다. SumMe와 TVSum이라는 두 개의 잘 알려진 데이터셋에 대해 포괄적인 실험 평가 결과를 보고합니다. 이 과정에서, 이전 연구가 이러한 벤치마크 데이터셋을 사용한 방법론적 문제점을 파악하고, 향후 연구에서 사용할 수 있는 적절한 데이터 분할과 공평한 평가 방식을 제시합니다. 정적 및 움직임 특징을 병렬 주의 메커니즘(parallel attention mechanism)으로 활용할 때, SumMe 데이터셋에 대한 최신 기술(state-of-the-art) 결과를 개선하였으며, 다른 데이터셋에서도 최신 기술과 동등한 성능을 보였습니다.