7日前

ラダー:クロスリンガルな動画およびテキスト検索データセット

Jayaprakash A, Abhishek, Rishabh Dabral, Ganesh Ramakrishnan, Preethi Jyothi
ラダー:クロスリンガルな動画およびテキスト検索データセット
要約

自然言語によるクエリを用いた動画検索では、テキストと音声・視覚入力の間に意味的に有意義な共同埋め込み(joint embeddings)を学習することが求められる。このような共同埋め込みは、通常、ペアワイズ(またはトリプレット)の対比損失(contrastive loss)を用いて学習されるが、この手法はトレーニング中に「検索が難しい(difficult-to-retrieve)」サンプルに十分な注目を払えないという問題を抱えている。この問題は、データが限られている状況において特に顕著であり、例えば大規模なMSR-VTTデータセットの10%程度の小規模なデータセットで、非常に複雑な音声・視覚埋め込み空間を十分にカバーすることが困難である。このような状況を踏まえ、本研究ではマルチリンガルな動画・テキスト検索データセット「Rudder」を提案する。このデータセットには、マラーティ語、ヒンディー語、タミル語、カナダ語、マラヤーラム語、テルグ語の6言語における音声とテキストキャプションが含まれている。さらに、データ不足の問題を補うために、ドメイン知識を活用して監督信号を拡張する手法を提案する。具体的には、従来のトリプレット(アーカイブ、ポジティブ、ネガティブ)の3つのサンプルに加え、第4の要素として「部分(partial)」を導入し、差分マージンに基づく部分順序損失(partial-order loss)を定義する。これらの「部分」は、ヒューリスティックにサンプリングされ、ポジティブとネガティブの意味的重複領域に位置するように設計されており、結果として埋め込み空間のカバー範囲が広がる。提案手法は従来のマックスマージン損失やトリプレット損失を一貫して上回り、MSR-VTTおよびDiDeMOデータセットにおいて、既存の最先端性能をさらに改善した。また、Rudderデータセットに対してベンチマーク結果を報告するとともに、特に各言語固有のデータセット間における多言語間の整合性を活用して、言語特有の検索モデルを共同学習させた場合、提案する部分順序損失が顕著な性能向上をもたらすことを確認した。