17일 전

이중 모달 주의력 강화 텍스트-비디오 검색을 위한 트리플릿 부분 마진 대비 학습

Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
이중 모달 주의력 강화 텍스트-비디오 검색을 위한 트리플릿 부분 마진 대비 학습
초록

최근 몇 년간 웹 영상의 급증은 영상 필터링, 추천 및 검색을 위한 텍스트-영상 검색(Text-Video Retrieval)의 중요성과 인기를 높였다. 텍스트-영상 검색의 목적은 관련 텍스트/영상 쌍을 비관련 쌍보다 높은 순위로 배치하는 것이다. 이 작업의 핵심은 텍스트와 영상 간의 교차 모달 유사도를 정확히 측정하는 것이다. 최근에는 대조 학습(Contrastive Learning) 기법이 텍스트-영상 검색에서 유망한 성과를 보여주고 있으며, 대부분의 연구는 긍정적 쌍과 부정적 쌍을 구성함으로써 텍스트 및 영상 표현을 학습하는 데 집중하고 있다. 그러나 이러한 기법들은 어려운 부정적 쌍(hard negative pairs)에 대한 충분한 주목을 하지 못하고 있으며, 다양한 수준의 의미적 유사성을 모델링하는 능력도 부족하다. 이러한 두 가지 문제를 해결하기 위해 본 논문은 두 가지 새로운 기술을 도입하여 대조 학습을 개선한다. 첫째, 강력한 구분 능력을 확보하기 위해 어려운 예제를 효과적으로 활용하기 위해, 텍스트적 및 시각적 단서로부터 어려운 부정적 쌍을 탐지하는 새로운 이중 모달 주의력 강화 모듈(Dual-Modal Attention-Enhanced Module, DMAE)을 제안한다. 또한 부정적 정보에 민감한 InfoNCE(NegNCE) 손실 함수를 도입함으로써, 이러한 어려운 부정적 쌍을 적응적으로 식별하고 학습 손실 내에서 그 영향을 명시적으로 강조할 수 있다. 둘째, 본 연구는 쌍별 샘플보다 삼중 샘플(Triplet Samples)이 더 세밀한 의미적 유사성을 모델링하는 데 더 효과적이라고 주장한다. 이를 바탕으로, 일치하는 텍스트-영상 쌍에 대해 자동으로 세밀한 어려운 부정적 쌍을 생성하여 부분 순서 삼중 샘플을 구성하는 새로운 삼중 부분 마진 대조 학습(Triplet Partial Margin Contrastive Learning, TPM-CL) 모듈을 제안한다. 제안된 TPM-CL은 교차 모달 상호작용을 통한 적응형 토큰 마스킹 전략을 설계하여 미묘한 의미적 차이를 효과적으로 모델링한다. 광범위한 실험을 통해 제안된 방법이 MSR-VTT, MSVD, DiDeMo, ActivityNet 등 네 가지 대표적인 텍스트-영상 검색 데이터셋에서 기존 방법들을 모두 초월함을 입증하였다.