2달 전

계층적 트랜스포머를 기반으로 한 동영상 공동 요약 모델링

Li Haopeng; Ke Qiuhong; Gong Mingming; Zhang Rui

초록

비디오 요약은 비디오의 요약(스토리보드 또는 비디오 스kim)을 자동으로 생성하는 것을 목표로 하며, 이는 대규모 비디오 검색 및 브라우징을 용이하게 합니다. 기존의 대부분 방법은 개별 비디오에 대한 요약을 수행하지만, 이는 유사한 비디오 간의 상관관계를 무시합니다. 그러나 이러한 상관관계는 비디오 이해와 비디오 요약에도 유용한 정보를 제공합니다. 이러한 제한점을 해결하기 위해, 우리는 계층적 트랜스포머(Hierarchical Transformer) 기반의 비디오 공동 모델링(VJMHT, Video Joint Modelling based on Hierarchical Transformer)을 제안하여, 비디오 간의 의미적 의존성을 고려합니다. 구체적으로, VJMHT는 두 개의 트랜스포머 층으로 구성됩니다: 첫 번째 층은 유사한 비디오의 개별 샷에서 의미 표현을 추출하고, 두 번째 층은 샷 수준에서 비디오 공동 모델링을 수행하여 교차 비디오 의미 정보를 집계합니다. 이를 통해 개별 비디오 요약을 위한 완전한 교차 비디오 고수준 패턴이 명시적으로 모델링되고 학습됩니다. 또한, 트랜스포머 기반의 비디오 표현 재구성 방법이 도입되어 요약과 원본 비디오 사이의 고수준 유사성을 최대화합니다. 광범위한 실험을 통해 제안된 모듈들의 유효성과 VJMHT가 F-측정값과 순위 기반 평가에서 우수함을 확인하였습니다.