時空に凍てついたもの:エンドツーエンド検索を実現する統合型動画・画像エンコーダ

本研究の目的は、効率的なテキストから動画への検索を可能にする共同埋め込み(joint embedding)を実現する動画-テキスト検索(video-text retrieval)である。この分野における主な課題は、視覚的アーキテクチャの設計および学習データの性質にあり、HowTo100Mなど既存の大規模な動画-テキスト学習データセットはノイズが多く含まれているため、競争力のある性能を達成するには膨大な計算資源を要する。本論文では、これらの課題に対処する手法を提案する。我々は、大規模な画像および動画キャプションデータセットの両方を活用できるように設計された、エンドツーエンドで訓練可能なモデルを提案する。このモデルは、最近のViT(Vision Transformer)およびTimesformerアーキテクチャの適応・拡張であり、空間的および時間的両方のアテンション機構を備えている。モデルは柔軟性に富み、画像と動画のテキストデータセットを独立してまたは併用して訓練可能である。学習戦略として、初期段階では画像を「固定された」動画のスナップショットとして扱い、その後、動画データセットでの学習を通じて、徐々に時間的文脈に注目する能力を習得するカリキュラム学習(curriculum learning)スケジュールを採用している。さらに、インターネットから弱いキャプションを収集した200万件以上の動画から構成される新しい動画-テキスト事前学習データセット「WebVid-2M」を提供する。本手法は、既存のデータセットよりも1桁小さい規模で学習を行っているにもかかわらず、MSR-VTT、MSVD、DiDeMo、LSMDCといった標準的な下流動画検索ベンチマークにおいて、最先端の性能を達成することを示した。