2달 전
비지도 비디오 요약을 위한 차별적 특성 학습
Yunjae Jung; Donghyeon Cho; Dahun Kim; Sanghyun Woo; In So Kweon

초록
본 논문에서는 입력 비디오에서 자동으로 핵심 장면을 추출하는 비지도 비디오 요약 문제를 다룹니다. 특히, 경험적 관찰에 기반하여 두 가지 중요한 이슈를 해결합니다: (i) 각 프레임의 출력 중요도 점수 분포가 평평하여 효과적인 특성 학습이 이루어지지 않는 문제, (ii) 긴 길이의 비디오 입력을 처리할 때 발생하는 훈련 어려움. 첫 번째 문제를 완화하기 위해, 우리는 간단하면서도 효과적인 정규화 손실 항인 분산 손실(variance loss)을 제안합니다. 제안된 분산 손실은 네트워크가 각 프레임에 대해 높은 차이를 가진 출력 점수를 예측할 수 있도록 하며, 이는 효과적인 특성 학습을 가능하게 하고 모델 성능을 크게 향상시킵니다. 두 번째 문제에 대해서는, 로컬(チャンク)와 글로벌(스트라이드) 시간적 시점을 활용하는 새로운 두 스트림 네트워크인 Chunk and Stride Network(CSNet)을 설계하였습니다. 우리의 CSNet은 기존 방법들보다 긴 길이의 비디오에 대해 더 나은 요약 결과를 제공합니다. 또한, 비디오 내의 동적 정보를 처리하기 위해 주의 메커니즘(attention mechanism)을 도입하였습니다. 광범위한 아블레이션 연구(ablation studies)를 통해 제안된 방법들의 유효성을 입증하였으며, 최종 모델이 두 벤치마크 데이터셋에서 새로운 최고 수준의 결과(state-of-the-art results)를 달성함을 보여주었습니다.