HyperAIHyperAI

Command Palette

Search for a command to run...

HowTo100M: 学習者によるテキスト-ビデオ埋め込みの学習方法 - 1億以上のナレーテッドビデオクリップを視聴して

Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic

概要

テキスト-ビデオ埋め込みの学習には通常、手動でキャプションが提供されたビデオクリップのデータセットが必要です。しかし、そのようなデータセットは作成コストが高く、時間もかかるため、大規模に入手することが困難です。本研究では、代わりに自動的に転記されたナレーションという形で自然言語の注釈が容易に利用できるビデオデータから埋め込みを学習することを提案します。本研究の貢献は以下の3点です。第一に、HowTo100M(ハウトゥー100M)という大規模なデータセットを導入します。このデータセットには、1.22百万のナレーション付き教育ウェブビデオから抽出した1億36百万のビデオクリップが含まれており、これらは人間が2万3千以上の異なる視覚的なタスクを実行し説明しているものです。当方のデータ収集プロセスは迅速かつ拡張性があり、追加の手動アノテーションは必要としません。第二に、このデータ上で学習したテキスト-ビデオ埋め込みがYouCook2やCrossTaskなどの教育ビデオデータセットにおけるテキスト-ビデオ検索とアクション局所化において最先端の結果を達成することを示します。第三に、この埋め込みが他のドメインにも良好に転移することを示します。一般的なYouTubeビデオ(MSR-VTTデータセット)や映画(LSMDCデータセット)での微調整により、これらのデータセットのみで学習したモデルよりも優れた性能を発揮することが確認されました。当方のデータセット、コードおよびモデルは公開され、アクセス可能となります:www.di.ens.fr/willow/research/howto100m/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています