少ないことがより良い:スパースサンプリングを活用したVideo-and-Language学習のためのClipBERT

動画と言語の学習(例えば、動画質問応答)における従来のアプローチは、視覚モデルから事前にオフラインで抽出された高密度な動画特徴と、言語モデルから得られるテキスト特徴を用いて、ニューラルモデルが学習することを規定している。これらの特徴抽出器は独立して訓練され、通常はターゲットとなるタスクとは異なるタスク上で学習されるため、後続のタスクに対して最適ではない固定特徴が得られてしまう。さらに、高密度な動画特徴は計算負荷が非常に高いことから、既存のアプローチに直接特徴抽出器を組み込むことが困難(あるいは不可能)である場合が多い。このジレンマを解決するため、本研究では、ClipBERTという汎用的なフレームワークを提案する。このフレームワークは、各訓練ステップで動画から1つまたは数個の疎な短時間クリップ(スパースサンプリング)のみを用いることで、動画と言語タスクにおける低コストなエンド・トゥ・エンド学習を可能にする。6つのデータセットにおけるテキストから動画への検索および動画質問応答の実験結果から、ClipBERTは全長動画を用いる既存手法と比較して優れている(または同等の性能を発揮)ことが示された。これは、わずかな疎なサンプリングされたクリップを用いたエンド・トゥ・エンド学習が、全長動画から事前に抽出された高密度特徴を用いる方法よりも精度が高いことを示しており、「少ないほうがよい(less-is-more)」という原則の妥当性を裏付けている。使用されたデータセット内の動画は、ドメインや長さが著しく異なり、3秒の一般的なGIF動画から180秒のYouTube人間行動動画まで幅広く、本手法の汎化能力を示している。成功の要因を解明するため、包括的なアブレーションスタディおよび詳細な分析も実施している。本研究のコードは、https://github.com/jayleicn/ClipBERT にて公開されている。