7일 전

UMT: 통합 다중 모달 트랜스포머를 통한 동시 영상 모먼트 검색 및 하이라이트 탐지

Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie
UMT: 통합 다중 모달 트랜스포머를 통한 동시 영상 모먼트 검색 및 하이라이트 탐지
초록

자연어 쿼리에 따라 영상 속 관련 순간과 하이라이트를 탐지하는 것은 현재 영상 콘텐츠 폭발 시대에 자연스럽고 매우 가치 있는 공통적인 요구사항이다. 그러나 이 두 문제를 동시에 수행하는 것은 여전히 새로운 연구 주제이며, 그 구성 요소 문제와 일부 관련 작업은 이미 오랫동안 연구되어 왔다. 본 논문에서는 이러한 공동 최적화를 실현할 수 있는 최초의 통합 프레임워크인 Unified Multi-modal Transformers(UMT)를 제안한다. 이 프레임워크는 개별 문제 해결을 위해 쉽게 축소될 수 있는 특징을 지닌다. 우리가 알고 있는 한, 이는 시각-음성 다모달 학습을 공동 최적화 또는 개별 순간 검색 작업에 통합한 최초의 방법이며, 새로운 쿼리 생성기와 쿼리 디코더를 사용하여 순간 검색 문제를 핵심점 탐지 문제로 접근한다. QVHighlights, Charades-STA, YouTube Highlights, TVSum 데이터셋에서 기존 방법들과의 광범위한 비교 및 아블레이션 연구를 통해 제안된 방법의 효과성, 우수성, 그리고 다양한 환경에서의 유연성을 입증하였다. 소스 코드와 사전 학습 모델은 https://github.com/TencentARC/UMT에서 제공된다.

UMT: 통합 다중 모달 트랜스포머를 통한 동시 영상 모먼트 검색 및 하이라이트 탐지 | 최신 연구 논문 | HyperAI초신경