비디오 프레임의 고유성과 다양성을 고려한 집중 주의를 활용한 비디오 요약

본 연구에서는 비지도 비디오 요약을 위한 새로운 방법을 제안한다. 기존의 비지도 비디오 요약 기법들이 제안하는 생성기-판별기 아키텍처의 불안정한 학습, 장거리 프레임 간 의존성 모델링에 있어 RNN의 사용, 그리고 RNN 기반 네트워크 아키텍처의 학습 과정을 병렬화할 수 없는 문제점을 해결하기 위해, 제안하는 방법은 비디오 프레임의 중요도를 추정하는 데 단지 자기 주의(self-attention) 메커니즘을 활용한다. 기존의 전역 주의(global attention) 기반 프레임 간 의존성 모델링 방식과는 달리, 본 방법은 주의 행렬의 주대각선 상의 겹치지 않는 블록에 집중할 수 있는 집중 주의(concentrated attention) 메커니즘을 도입하여, 관련 프레임의 고유성과 다양성에 대한 지식을 추출하고 활용함으로써 기존 정보를 풍부하게 한다. 이를 통해 본 방법은 비디오의 다양한 부분에 대해 더 정확한 중요도 추정을 가능하게 하며, 학습 가능한 파라미터 수를 크게 감소시킨다. SumMe 및 TVSum이라는 두 가지 벤치마크 데이터셋을 이용한 실험 평가 결과, 제안된 방법은 다른 최신 비지도 요약 기법들과 경쟁력 있는 성능을 보이며, 인간의 선호에 매우 가까운 비디오 요약을 생성할 수 있음을 입증하였다. 또한, 집중 주의 메커니즘과 프레임의 고유성 및 다양성에 대한 주의 기반 추정을 결합한 제안된 구성 요소들의 기여도를 분석하는 제거 실험(ablation study)를 통해, 각 요소가 전체 요약 성능에 미치는 상대적 기여를 명확히 확인할 수 있었다.