2달 전
부정 샘플이 중요하다: 시간적 정렬을 위한 메트릭 학습의 부흥
Zhenzhi Wang; Limin Wang; Tao Wu; Tianhao Li; Gangshan Wu

초록
시점 정렬은 주어진 자연어 쿼리와 의미적으로 일치하는 비디오 순간을 위치시키는 것을 목표로 합니다. 기존 방법들은 일반적으로 복합 표현에 대한 검출 또는 회귀 파이프라인을 적용하며, 연구의 초점은 복잡한 예측 헤드나 복합 전략 설계에 맞춰져 있습니다. 대신 시점 정렬을 메트릭 학습 문제로 바라보는 관점에서, 우리는 언어 쿼리와 비디오 순간 간의 유사성을 공동 임베딩 공간에서 직접 모델링하기 위한 상호 매칭 네트워크(Mutual Matching Network, MMN)를 제안합니다. 이 새로운 메트릭 학습 프레임워크는 두 가지 새로운 측면에서 부정 샘플을 완전히 활용할 수 있게 합니다: 상호 매칭 방식으로 부정 다중 모달 쌍을 구성하고, 다른 비디오 간의 부정 쌍을 추출합니다. 이러한 새로운 부정 샘플은 두 모달 간의 교차 모달 상호 매칭을 통해 그들의 상호 정보를 최대화하여 공동 표현 학습을 강화할 수 있습니다. 실험 결과, 우리의 MMN은 네 개의 비디오 정렬 벤치마크에서 최신 방법들과 비교해 매우 경쟁력 있는 성능을 보였습니다. MMN 기반으로 3번째 PIC 워크샵의 HC-STVG 도전 과제에 대한 우승 솔루션을 제시하였습니다. 이는 메트릭 학습이 공동 임베딩 공간에서 본질적인 교차 모달 상관관계를 포착함으로써 여전히 시점 정렬에 있어 유망한 방법임을 시사합니다. 코드는 https://github.com/MCG-NJU/MMN 에서 확인 가능합니다.