시간에 봉인된 것: 엔드투엔드 검색을 위한 공동 비디오 및 이미지 인코더

본 연구의 목적은 영상-텍스트 검색, 특히 효율적인 텍스트-영상 검색을 가능하게 하는 공동 임베딩( joint embedding)을 구현하는 것이다. 이 분야에서 직면하는 과제는 시각적 아키텍처 설계와 학습 데이터의 특성에 있다. 구체적으로, HowTo100M과 같은 대규모 영상-텍스트 학습 데이터셋은 노이즈가 많으며, 이로 인해 경쟁력 있는 성능을 달성하기 위해서는 대규모 컴퓨팅 자원이 필요하다. 본 논문에서는 이러한 두 가지 과제를 모두 해결한다. 우리는 대규모 이미지 및 영상 캡셔닝 데이터셋을 효과적으로 활용할 수 있도록 설계된 엔드 투 엔드 학습 가능한 모델을 제안한다. 제안하는 모델은 최근의 ViT 및 Timesformer 아키텍처를 기반으로 한 변형 및 확장된 구조로, 공간적 및 시간적 양쪽 모두에서 어텐션 메커니즘을 포함하고 있다. 이 모델은 유연성이 뛰어나 이미지 및 영상-텍스트 데이터셋을 독립적으로 또는 함께 학습할 수 있다. 또한, 이미지를 영상의 '고정된' 순간 이미지로 간주하는 초기 단계에서 시작하여, 영상 데이터셋을 학습하면서 점차 더 긴 시계열적 맥락에 주목하는 능력을 점진적으로 학습하는 커리큘럼 학습 스케줄을 사용한다. 더불어, 인터넷에서 약한 캡셔닝 정보를 추출하여 구성된 200만 개 이상의 영상으로 구성된 새로운 영상-텍스트 사전학습 데이터셋인 WebVid-2M을 제공한다. 데이터셋 크기가 기존의 것보다 한 차원 작음에도 불구하고, 본 방법이 MSR-VTT, MSVD, DiDeMo, LSMDC 등 표준 영상 검색 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성함을 보여준다.