X-CLIP: 비디오-텍스트 검색을 위한 엔드투엔드 다중 그레인 대조 학습

비디오-텍스트 검색은 다중 모달 연구에서 핵심적이고 기초적인 과제로 여겨져 왔다. 대규모 다중 모달 대조 사전 훈련의 발전으로 인해 비디오-텍스트 검색 기술은 크게 촉진되었으며, 이는 주로 거시적 또는 미세한 수준의 대조에 초점을 맞추고 있다. 그러나 거시적 표현과 미세적 표현 간의 대조인 교차 수준 대조는 이전 연구에서 거의 탐색되지 않았다. 미세적 또는 거시적 대조와 비교하여, 교차 수준 대조는 거시적 특징과 각 미세적 특징 간의 상관관계를 계산하며, 유사도 계산 과정에서 거시적 특징에 의해 유용하지 않은 미세적 특징을 필터링할 수 있다. 이는 검색 정확도를 향상시키는 데 기여한다. 이를 해결하기 위해 본 논문은 새로운 다중 수준 대조 모델인 X-CLIP을 제안한다. 그러나 또 다른 도전 과제는 유사도 집계 문제이다. 이는 미세적 수준과 교차 수준의 유사도 행렬을 인스턴스 수준의 유사도로 집계하는 것을 목표로 한다. 이 문제를 해결하기 위해, 본 연구는 유사도 행렬에 대한 주의(Attention)를 적용하는 AOSM(Attention Over Similarity Matrix) 모듈을 제안한다. 이를 통해 모델은 핵심 프레임과 핵심 단어 간의 대조에 집중할 수 있어, 불필요한 프레임과 단어가 검색 결과에 미치는 영향을 감소시킬 수 있다. 다중 수준 대조와 제안된 AOSM 모듈을 통합한 X-CLIP은 MSR-VTT (49.3 R@1), MSVD (50.4 R@1), LSMDC (26.1 R@1), DiDeMo (47.8 R@1), ActivityNet (46.2 R@1) 등 널리 사용되는 다섯 가지 비디오-텍스트 검색 데이터셋에서 뛰어난 성능을 달성하였다. 이는 기존 최고 성능 모델 대비 각각 +6.3%, +6.6%, +11.1%, +6.7%, +3.8%의 상대적 성능 향상을 기록하며, 다중 수준 대조와 AOSM의 우수성을 입증하였다.