이중 모달 주의력 강화 텍스트-비디오 검색을 위한 트리플릿 부분 마진 대비 학습

최근 몇 년간 웹 영상의 급증은 영상 필터링, 추천 및 검색을 위한 텍스트-영상 검색(Text-Video Retrieval)의 중요성과 인기를 높였다. 텍스트-영상 검색의 목적은 관련 텍스트/영상 쌍을 비관련 쌍보다 높은 순위로 배치하는 것이다. 이 작업의 핵심은 텍스트와 영상 간의 교차 모달 유사도를 정확히 측정하는 것이다. 최근에는 대조 학습(Contrastive Learning) 기법이 텍스트-영상 검색에서 유망한 성과를 보여주고 있으며, 대부분의 연구는 긍정적 쌍과 부정적 쌍을 구성함으로써 텍스트 및 영상 표현을 학습하는 데 집중하고 있다. 그러나 이러한 기법들은 어려운 부정적 쌍(hard negative pairs)에 대한 충분한 주목을 하지 못하고 있으며, 다양한 수준의 의미적 유사성을 모델링하는 능력도 부족하다. 이러한 두 가지 문제를 해결하기 위해 본 논문은 두 가지 새로운 기술을 도입하여 대조 학습을 개선한다. 첫째, 강력한 구분 능력을 확보하기 위해 어려운 예제를 효과적으로 활용하기 위해, 텍스트적 및 시각적 단서로부터 어려운 부정적 쌍을 탐지하는 새로운 이중 모달 주의력 강화 모듈(Dual-Modal Attention-Enhanced Module, DMAE)을 제안한다. 또한 부정적 정보에 민감한 InfoNCE(NegNCE) 손실 함수를 도입함으로써, 이러한 어려운 부정적 쌍을 적응적으로 식별하고 학습 손실 내에서 그 영향을 명시적으로 강조할 수 있다. 둘째, 본 연구는 쌍별 샘플보다 삼중 샘플(Triplet Samples)이 더 세밀한 의미적 유사성을 모델링하는 데 더 효과적이라고 주장한다. 이를 바탕으로, 일치하는 텍스트-영상 쌍에 대해 자동으로 세밀한 어려운 부정적 쌍을 생성하여 부분 순서 삼중 샘플을 구성하는 새로운 삼중 부분 마진 대조 학습(Triplet Partial Margin Contrastive Learning, TPM-CL) 모듈을 제안한다. 제안된 TPM-CL은 교차 모달 상호작용을 통한 적응형 토큰 마스킹 전략을 설계하여 미묘한 의미적 차이를 효과적으로 모델링한다. 광범위한 실험을 통해 제안된 방법이 MSR-VTT, MSVD, DiDeMo, ActivityNet 등 네 가지 대표적인 텍스트-영상 검색 데이터셋에서 기존 방법들을 모두 초월함을 입증하였다.