12일 전
비디오 요약을 위한 위치 인코딩을 활용한 전역 및 국부적 어텐션의 결합
{Ioannis Patras, Vasileios Mezaris, Georgios Balaouras, Evlampios Apostolidis}

초록
본 논문은 감독형 비디오 요약을 위한 새로운 방법을 제안한다. 기존의 RNN 기반 요약 아키텍처가 장거리 프레임 간의 의존성 모델링과 학습 과정의 병렬화 능력 측면에서 가지는 한계를 극복하기 위해, 개발된 모델은 자기 주의(self-attention) 메커니즘을 활용하여 비디오 프레임의 중요도를 추정한다. 기존의 주의 기반 요약 방법들이 전체 프레임 시퀀스를 관찰함으로써 프레임 간 의존성을 모델링하는 방식과 달리, 본 연구에서는 전역(global) 및 국소(local) 다중 머리 주의 메커니즘을 결합하여, 프레임 간 의존성의 다양한 모델링 방식을 다층적인 세부 수준에서 탐색한다. 또한, 사용된 주의 메커니즘은 비디오 프레임의 시계열적 위치 정보를 인코딩하는 구성 요소를 통합하고 있는데, 이는 비디오 요약 생성 시 매우 중요한 요소이다. SumMe 및 TVSum 두 개의 데이터셋에서 수행한 실험 결과는 제안된 모델이 기존의 주의 기반 방법들에 비해 효과적임을 입증하며, 다른 최첨단 감독형 요약 접근법들과의 경쟁력도 입증한다. 본 연구에서 주로 제안한 구성 요소, 즉 전역 및 국소 다중 머리 주의 메커니즘과 절대적 위치 인코딩 구성 요소의 상호작용에 초점을 맞춘 아블레이션(Ablation) 연구는 각 구성 요소가 전체 요약 성능에 기여하는 상대적 역할을 명확히 보여준다.