12일 전

주의 메커니즘을 통한 비감독형 비디오 요약에 대한 시간적 방식 통합

{Viet H. Vo, Bang Q. Vo}
초록

이 연구에서는 영상 스케이밍(Video Skims)을 통해 영상 요약을 수행하기 위한 새로운 비지도 학습 방식인 SegSum을 제안한다. 최근의 대부분의 방법들은 개별 영상 프레임에 대한 중요도 점수를 할당하는 요약 모델을 학습시키는 방식을 사용한다. 이 점수들은 Kernel Temporal Segmentation(KTS)와 같은 방법을 통해 생성된 영상 세그먼트에 대해 집계되어, 최종 요약을 생성한다. 그러나 이러한 접근 방식은 요약 모델이 요약 생성에 필수적인 정보—특히 영상 세그먼트 내의 공간-시간적 관계—에 접근할 수 없게 만든다. 본 연구에서 제안하는 방법은 깊이 학습 모델의 집중 주의(Concentrated Attention) 아키텍처를 기반으로, KTS를 통해 얻은 세그먼트 정보를 요약 모델의 학습 과정에 통합한다. 실험을 통해 우리는 여러 데이터셋과 다양한 비지도 영상 요약 아키텍처에서 본 방법을 광범위하게 평가하였다. 집중 주의 모듈을 도입함으로써, 기존 벤치마크에서 높은 F1 점수를 기록하였으며, SumMe 데이터셋에서는 54%, TVSum 데이터셋에서는 62%의 성능을 달성하였다. 또한 단순한 회귀기(Regressor) 네트워크만을 사용해도 SegSum은 인간의 주석과 매우 유사한 요약 결과를 생성하는 경쟁력 있는 성능을 보였다.

주의 메커니즘을 통한 비감독형 비디오 요약에 대한 시간적 방식 통합 | 최신 연구 논문 | HyperAI초신경