7일 전

러더: 다국어 비디오 및 텍스트 검색 데이터셋

Jayaprakash A, Abhishek, Rishabh Dabral, Ganesh Ramakrishnan, Preethi Jyothi
러더: 다국어 비디오 및 텍스트 검색 데이터셋
초록

자연어 쿼리를 이용한 비디오 검색은 텍스트와 오디오-시각 입력 간에 의미적으로 유의미한 공동 임베딩을 학습하는 것을 필요로 한다. 일반적으로 이러한 공동 임베딩은 쌍(또는 트리플렛) 대비 손실 함수를 사용하여 학습되며, 이는 학습 중에 '검색하기 어려운' 샘플에 충분한 주의를 기울이지 못하는 문제를 야기한다. 이 문제는 데이터가 상대적으로 적은 환경에서 특히 두드러지며, 이는 대규모 MSR-VTT 데이터셋의 10%에 불과한 작은 데이터로 복잡한 오디오-시각 임베딩 공간을 포괄해야 하는 상황을 의미한다. 이러한 맥락에서 우리는 마라티어, 힌디어, 타밀어, 칸나다어, 말라얄람어, 텔루구어 등 6개의 다국어를 포함하는 다국어 비디오-텍스트 검색 데이터셋인 Rudder를 소개한다. 또한, 도메인 지식을 활용하여 감독 신호를 보완함으로써 데이터 부족 문제를 해결할 수 있는 방법을 제안한다. 이를 위해 기존의 트리플렛(앵커, 양성, 음성) 세 가지 샘플 외에 네 번째 요소인 '부분(Partial)'을 도입하여, 부분 순서 기반의 차이 마진 손실을 정의한다. 이러한 '부분'은 양성과 음성 샘플의 의미적 겹침 영역에 위치하도록 휴리스틱하게 샘플링되며, 결과적으로 더 광범위한 임베딩 커버리지를 제공한다. 제안된 방법은 기존의 최대 마진 손실 및 트리플렛 손실보다 일관되게 우수한 성능을 보이며, MSR-VTT 및 DiDeMO 데이터셋에서 최신 기술 수준을 향상시킨다. Rudder에 대한 벤치마크 결과를 보고하며, 특히 언어별 데이터셋 간의 다국어 정렬을 활용하여 언어별 검색 모델을 공동으로 학습할 경우, 제안된 부분 순서 손실이 특히 두드러진 성능 향상을 가져옴을 관찰하였다.