2달 전

HowTo100M: 백만 개의 설명 동영상 클립을 시청하여 텍스트-비디오 임베딩 학습하기

Miech, Antoine ; Zhukov, Dimitri ; Alayrac, Jean-Baptiste ; Tapaswi, Makarand ; Laptev, Ivan ; Sivic, Josef
HowTo100M: 백만 개의 설명 동영상 클립을 시청하여 텍스트-비디오 임베딩 학습하기
초록

텍스트-비디오 임베딩을 학습하는 데 일반적으로 수동으로 제공된 캡션을 포함한 비디오 클립 데이터셋이 필요합니다. 그러나 이러한 데이터셋은 비싸고 시간이 많이 소요되어 대규모로 구축하기 어렵습니다. 본 연구에서는 대신 자동으로 전사된 내레이션 형태의 자연어 주석이 포함된 비디오 데이터에서 이러한 임베딩을 학습하는 방법을 제안합니다. 본 연구의 기여는 세 가지입니다. 첫째, 우리는 136백만 개의 비디오 클립으로 구성된 대규모 데이터셋 HowTo100M를 소개합니다. 이 데이터셋은 122만 개의 내레이션이 있는 지시형 웹 비디오에서 수집되었으며, 인간이 수행하고 설명하는 23,000개 이상의 다양한 시각적 작업을 묘사하고 있습니다. 우리의 데이터 수집 절차는 빠르고 확장성이 있으며 추가적인 수동 주석이 필요하지 않습니다. 둘째, 이 데이터에서 학습된 텍스트-비디오 임베딩이 YouCook2나 CrossTask와 같은 지시형 비디오 데이터셋에서 텍스트-비디오 검색과 동작 위치 추정에 있어 최상의 결과를 도출한다는 것을 입증하였습니다. 마지막으로, 이 임베딩이 다른 영역으로도 잘 전달됨을 보였습니다: 일반적인 유튜브 비디오(MSR-VTT 데이터셋)와 영화(LSMDC 데이터셋)에서 미세 조정(fine-tuning)하면 이들 데이터셋에서 단독으로 학습한 모델보다 성능이 우수합니다. 우리의 데이터셋, 코드 및 모델은 다음과 같이 공개될 예정입니다: www.di.ens.fr/willow/research/howto100m/.