2달 전

쿼리에 따른 비디오 표현을 이용한 순간 검색 및 하이라이트 탐지

WonJun Moon; Sangeek Hyun; SangUk Park; Dongchan Park; Jae-Pil Heo
쿼리에 따른 비디오 표현을 이용한 순간 검색 및 하이라이트 탐지
초록

최근, 비디오 모멘트 검색 및 하이라이트 감지(MR/HD)가 비디오 이해에 대한 수요가 급격히 증가함에 따라 주목받고 있습니다. MR/HD의 핵심 목표는 주어진 텍스트 쿼리에 대해 모멘트를 위치 결정하고 클립별 일치도, 즉 주목성 점수를 추정하는 것입니다. 최근 트랜스포머 기반 모델들이 일부 발전을 가져왔지만, 우리는 이러한 방법들이 주어진 쿼리의 정보를 완전히 활용하지 않는다는 것을 발견했습니다. 예를 들어, 텍스트 쿼리와 비디오 내용 간의 관련성이 때때로 모멘트와 그 주목성을 예측할 때 무시되는 경우가 있습니다. 이 문제를 해결하기 위해, MR/HD에 맞춤화된 탐지 트랜스포머인 Query-Dependent DETR(QD-DETR)를 소개합니다. 트랜스포머 아키텍처에서 주어진 쿼리의 역할이 미미하다는 점을 관찰한 결과, 우리의 인코딩 모듈은 텍스트 쿼리의 문맥을 명시적으로 비디오 표현에 주입하기 위해 크로스 어텐션 레이어로 시작됩니다. 그런 다음, 쿼리 정보 활용 능력을 강화하기 위해 비디오-쿼리 쌍을 조작하여 관련성이 없는 쌍을 생성합니다. 이러한 부정(관련성 없음) 비디오-쿼리 쌍은 낮은 주목성 점수를 생성하도록 훈련되며, 이는 다시 말해 모델이 쿼리-비디오 쌍 간의 정확한 일치도를 추정하도록 유도합니다. 마지막으로, 주어진 비디오-쿼리 쌍에 대해 주목성 점수의 기준을 적응적으로 정의하는 입력 적응형 주목성 예측기를 제시합니다. 우리의 광범위한 연구는 MR/HD를 위한 쿼리 종속 표현 구축의 중요성을 확인하였습니다. 특히, QD-DETR은 QVHighlights, TVSum 및 Charades-STA 데이터셋에서 최신 기술보다 우수한 성능을 보입니다. 코드는 github.com/wjun0830/QD-DETR에서 제공됩니다.

쿼리에 따른 비디오 표현을 이용한 순간 검색 및 하이라이트 탐지 | 최신 연구 논문 | HyperAI초신경