기대값-최대화 대비 학습을 통한 컴팩트한 비디오-언어 표현 학습

대부분의 비디오-언어 표현 학습 접근법은 CLIP와 같은 대조 학습(contrastive learning) 기법을 사용하여 텍스트-비디오 쌍의 의미적 유사도에 따라 비디오 및 텍스트 특징을 공통의 잠재 공간(common latent space)에 매핑한다. 그러나 이러한 학습된 공유 잠재 공간은 종종 최적화되지 않으며, 시각적 표현과 텍스트적 표현 사이의 모달리티 갭(modality gap)은 완전히 제거되지 않는다. 본 논문에서는 비디오-언어 표현을 보다 컴팩트하게 학습하기 위해 기대-최대화 대조 학습(Expectation-Maximization Contrastive Learning, EMCL)을 제안한다. 구체적으로, 기대-최대화(Expectation-Maximization, EM) 알고리즘을 활용하여 잠재 공간에 대해 컴팩트한 기저(base) 집합을 찾으며, 이 기저들을 이용해 특징을 선형 조합의 형태로 간결하게 표현할 수 있도록 한다. 이러한 비디오-언어 표현의 특징 분해는 잠재 공간의 랭크(rank)를 감소시키고, 의미 표현 능력을 향상시킨다. 세 가지 표준 텍스트-비디오 검색 데이터셋에 대한 광범위한 실험을 통해 EMCL이 기존 방법보다 더 구분력 있는 비디오-언어 표현을 학습할 수 있음을 입증하였으며, 모든 평가 지표에서 기존 최상의 방법들을 상당히 뛰어넘는 성능을 보였다. 더욱 흥미롭게도, 제안된 방법은 기존 접근법의 성능을 향상시키는 데 활용될 수 있으며, 공동 학습 레이어로 사용하거나 추가 학습 없이 즉시 사용 가능한 추론 모듈로 적용 가능하다. 이로 인해 기존 어떤 방법에도 쉽게 통합될 수 있다.