2ヶ月前

HowTo100M: 学習者によるテキスト-ビデオ埋め込みの学習方法 - 1億以上のナレーテッドビデオクリップを視聴して

Miech, Antoine ; Zhukov, Dimitri ; Alayrac, Jean-Baptiste ; Tapaswi, Makarand ; Laptev, Ivan ; Sivic, Josef

要約

テキスト-ビデオ埋め込みの学習には通常、手動でキャプションが提供されたビデオクリップのデータセットが必要です。しかし、そのようなデータセットは作成コストが高く、時間もかかるため、大規模に入手することが困難です。本研究では、代わりに自動的に転記されたナレーションという形で自然言語の注釈が容易に利用できるビデオデータから埋め込みを学習することを提案します。本研究の貢献は以下の3点です。第一に、HowTo100M（ハウトゥー100M）という大規模なデータセットを導入します。このデータセットには、1.22百万のナレーション付き教育ウェブビデオから抽出した1億36百万のビデオクリップが含まれており、これらは人間が2万3千以上の異なる視覚的なタスクを実行し説明しているものです。当方のデータ収集プロセスは迅速かつ拡張性があり、追加の手動アノテーションは必要としません。第二に、このデータ上で学習したテキスト-ビデオ埋め込みがYouCook2やCrossTaskなどの教育ビデオデータセットにおけるテキスト-ビデオ検索とアクション局所化において最先端の結果を達成することを示します。第三に、この埋め込みが他のドメインにも良好に転移することを示します。一般的なYouTubeビデオ（MSR-VTTデータセット）や映画（LSMDCデータセット）での微調整により、これらのデータセットのみで学習したモデルよりも優れた性能を発揮することが確認されました。当方のデータセット、コードおよびモデルは公開され、アクセス可能となります：www.di.ens.fr/willow/research/howto100m/。