초록
이 논문에서는 비지도 방식으로 영상 요약을 생성하는 새로운 프로세스를 제안한다. 제안하는 방법은 부분적으로 마스킹된 영상을 입력으로 사용하여, 트랜스포머 인코더 모델을 자기지도 학습 방식으로 누락된 프레임을 재구성하도록 훈련하는 것을 포함한다. 이후, 위에서 훈련된 인코더를 활용하여 각 프레임에 대한 중요도 점수를 산출하는 알고리즘을 도입한다. 이러한 프레임 중요도 점수는 영상 요약을 생성하는 데 사용된다. 우리는 마스킹된 프레임을 가진 영상에 대한 모델의 재구성 손실이 영상 내 남은 프레임의 대표성과 상관관계가 있음을 보여준다. 제안한 방법의 유효성을 TVSum 및 SumMe 두 가지 벤치마크 데이터셋에서 검증하였으며, 기존 최고 수준(SOTA) 기법들을 능가함을 입증하였다. 또한, 생성적 적대 학습 기반의 기존 SOTA 기법들에 비해 훈련 과정에서 더 높은 안정성을 보였다. 본 연구의 소스 코드는 공개되어 있다.