
초록
비디오 요약은 비디오의 본질적인 내용과 핵심 순간을 포착하면서 전체 길이를 줄이는 간결한 표현을 생성하는 것을 목표로 합니다. 여러 방법들이 장기 의존성을 처리하기 위해 주의 메커니즘을 활용하지만, 종종 프레임 내에 내재된 시각적 중요성을 포착하지 못하는 경우가 많습니다. 이러한 제한 사항을 해결하기 위해, 우리는 단일 비디오에서 각 프레임의 특징을 이미지와 같은 프레임 표현으로 쌓아서 2D CNN을 적용하는 CNN 기반 시공간 주의(CSTA) 방법을 제안합니다. 우리의 방법론은 CNN의 이미지 내 절대 위치를 학습할 수 있는 능력을 활용하여, 프레임 간 및 프레임 내 관계를 이해하고 비디오에서 중요한 속성을 찾는 데 의존합니다. 이전 연구에서는 공간적 중요성에 집중하기 위해 추가 모듈을 설계함으로써 효율성이 저해되었지만, CSTA는 CNN을 슬라이딩 윈도우로 사용하므로 최소한의 계산 부하만 필요합니다. SumMe와 TVSum 두 벤치마크 데이터셋에 대한 광범위한 실험 결과, 제안된 접근 방식이 이전 방법보다 적은 MACs로 최신 성능을 달성함을 보여주었습니다. 코드는 https://github.com/thswodnjs3/CSTA에서 제공됩니다.