2달 전
격차를 연결하다: 순간 검색 및 하이라이트 감지 위한 통합 비디오 이해 프레임워크
Xiao, Yicheng ; Luo, Zhuoyan ; Liu, Yong ; Ma, Yue ; Bian, Hengwei ; Ji, Yatai ; Yang, Yujiu ; Li, Xiu

초록
비디오 모멘트 검색(MR)과 하이라이트 탐지(HD)는 비디오 분석에 대한 수요 증가로 인해 상당한 주목을 받고 있습니다. 최근의 접근 방식은 MR과 HD를 유사한 비디오 기반 문제로 취급하고 트랜스포머 기반 아키텍처를 통해 함께 해결하려고 합니다. 그러나 우리는 MR과 HD의 중점이 다르다는 것을 관찰하였습니다. 하나는 국소적 관계의 인식을 필요로 하고, 다른 하나는 전역적 맥락 이해를 우선시합니다. 따라서, 작업 특유의 설계 부족은 두 작업의 본질적인 특성을 연관시키는 데 있어 필연적으로 제약을 초래할 것입니다. 이 문제를 해결하기 위해, 우리는 이 차이를 극복하고 MR과 HD를 효과적으로 공동으로 해결할 수 있는 통합 비디오 이해 프레임워크(UVCOM)를 제안합니다. UVCOM은 다중 세분화 단위에서의 모달 내 및 모달 간 점진적 통합을 수행하여 비디오 처리 시 포괄적인 이해를 달성합니다. 또한, 우리는 다각도 대조 학습을 제시하여 잘 정렬된 다중 모달 공간을 통해 국소적 관계 모델링과 전역적 지식 축적을 강화합니다. QVHighlights, Charades-STA, TACoS, YouTube Highlights 및 TVSum 데이터셋에 대한 광범위한 실험들은 UVCOM의 효과성과 합리성을 입증하며, 현존하는 최신 방법론들을 크게 능가하는 성능을 보여주었습니다.