2달 전
배경 인식 모멘트 검출을 이용한 비디오 모멘트 검색
Jung, Minjoon ; Jang, Youwon ; Choi, Seongho ; Kim, Joochan ; Kim, Jin-Hwa ; Zhang, Byoung-Tak

초록
비디오 모먼트 검색(Video Moment Retrieval, VMR)은 주어진 자연어 쿼리에 대해 편집되지 않은 비디오에서 특정 순간을 식별하는 작업입니다. 이 작업은 비디오 데이터셋에 내재된 약한 정렬 문제로 인해 성능 저하를 겪기 쉽습니다. 모호성 때문에 쿼리는 해당 순간의 관련 세부 사항을 완전히 포함하지 않을 수 있으며, 순간은 잘못 정렬되거나 관련 없는 프레임을 포함할 수 있어, 이는 추가적인 성능 향상을 제한할 가능성이 있습니다. 이러한 문제를 해결하기 위해 우리는 배경 인식 모먼트 탐지 트랜스포머(Background-aware Moment Detection Transformer, BM-DETR)를 제안합니다. 우리의 모델은 대조적 접근 방식을 채택하여, 비디오의 다른 순간과 매칭된 부정 쿼리를 신중하게 활용합니다. 구체적으로, 우리의 모델은 긍정 쿼리와 부정 쿼리의 보수(complement)가 주어졌을 때 각 프레임의 결합 확률(joint probability)로부터 목표 순간을 예측하도록 학습됩니다. 이는 주변 배경의 효과적인 활용으로 이어져, 순간 감지를 개선하고 비디오 전체의 정렬을 강화합니다. 네 가지 벤치마크에서 수행된 광범위한 실험들은 우리의 접근 방식이 효과적임을 입증하였습니다. 우리의 코드는 다음 링크에서 확인할 수 있습니다: \url{https://github.com/minjoong507/BM-DETR}