9일 전

다중 스트림 코퍼스 정렬과 이중 소프트맥스 손실을 통한 비디오-텍스트 검색 향상

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen
다중 스트림 코퍼스 정렬과 이중 소프트맥스 손실을 통한 비디오-텍스트 검색 향상
초록

대규모 사전 학습 모델인 CLIP을 활용한 비디오-텍스트 검색(VTR) 작업은 최근 새로운 트렌드로 부상하며, 기존의 VTR 방법들을 뛰어넘고 있다. 그러나 비디오와 텍스트 간의 구조적 및 내용적 이질성으로 인해, 기존의 CLIP 기반 모델은 학습 단계에서 과적합(overfitting)에 취약하여 상대적으로 낮은 검색 성능을 보이고 있다. 본 논문에서는 이러한 두 가지 이질성을 해결하기 위해 단일 게이트 혼합 전문가(Mixture-of-Experts, MoE)를 활용한 다중 스트림 코퍼스 정렬 네트워크(CAMoE)와 새로운 이중 소프트맥스 손실(Dual Softmax Loss, DSL)을 제안한다. CAMoE는 MoE 기반 아키텍처를 통해 동작, 개체, 장면 등 다양한 시각적 관점에서 비디오 표현을 추출한 후, 이를 텍스트의 해당 부분과 정렬한다. 이 과정에서 특징 추출 모듈과 특징 정렬 모듈에 대해 광범위한 탐색을 수행하였다. DSL은 기존의 대조적 방법에서 발생하는 일방적인 최적 매칭 문제를 방지하기 위해 제안된 손실 함수로, 배치 내 각 쌍의 내재적 사전 지식(intrinsic prior)을 도입하여 유사도 행렬을 보정하고 이중 최적 매칭을 달성한다. DSL은 단 한 줄의 코드만으로 간편하게 구현 가능하면서도 성능 향상이 뚜렷하다. 실험 결과, 제안하는 CAMoE와 DSL은 각각 강력한 효율성을 보이며, MSR-VTT, MSVD, LSMDC 등 다양한 벤치마크에서 독자적으로 최고 수준(SOTA)의 성능을 달성함을 확인하였다. 더욱이 두 모델을 결합할 경우 성능이 크게 향상되어 MSR-VTT에서 기존 SOTA 방법 대비 R@1 기준 약 4.6%의 성능 향상을 달성하였다.