한 달 전

불완전하고 이질적인 데이터에서 텍스트-비디오 임베딩 학습

Antoine Miech; Ivan Laptev; Josef Sivic
불완전하고 이질적인 데이터에서 텍스트-비디오 임베딩 학습
초록

비디오와 언어의 공동 이해는 다양한 응용 분야를 가진 활발한 연구 영역입니다. 이 분야의 기존 연구는 일반적으로 텍스트-비디오 임베딩 학습에 의존해 왔습니다. 그러나 이러한 접근 방식의 한 가지 어려움은 대규모 주석이 달린 비디오-캡션 데이터셋이 부족하다는 점입니다. 이 문제를 해결하기 위해 우리는 이질적인 데이터 소스에서 텍스트-비디오 임베딩을 학습하는 것을 목표로 합니다. 이를 위해 우리는 훈련 중 결측 입력 모달리티를 처리할 수 있는 능력을 갖춘 Mixture-of-Embedding-Experts (MEE) 모델을 제안합니다. 그 결과, 우리의 프레임워크는 이미지 및 비디오 데이터셋에서 동시에 개선된 텍스트-비디오 임베딩을 학습할 수 있습니다. 또한 우리는 MEE가 얼굴 설명자와 같은 다른 입력 모달리티에도 일반화될 수 있음을 보여줍니다. 우리는 MPII 영화 설명과 MSR-VTT 데이터셋을 사용하여 비디오 검색 작업에서 우리의 방법을 평가하고 결과를 보고합니다. 제안된 MEE 모델은 상당한 개선을 보이며, 텍스트-비디오 및 비디오-텍스트 검색 작업 모두에서 기존에 보고된 방법들을 능가합니다. 코드는 다음 링크에서 제공됩니다: https://github.com/antoine77340/Mixture-of-Embedding-Experts

불완전하고 이질적인 데이터에서 텍스트-비디오 임베딩 학습 | 최신 연구 논문 | HyperAI초신경