7日前
Video-Language理解における「Video」の再考
Shyamal Buch, Cristóbal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li Fei-Fei, Juan Carlos Niebles

要約
動画のタスクが単一の画像から得られる情報以上のものに特化している理由とは何か?近年の自己教師付き画像・言語モデルの進展を踏まえ、本研究では動画と言語のタスクという文脈において、この問いを再検討する。我々は、画像レベルの理解に制約されたマルチモーダルモデルのベースライン精度に対してより強い上限を提供する新たなモデル「非時系列プローブ(Atemporal Probe, ATP)」を提案する。このモデルを標準的な分類的動画・言語タスク(例えば動画質問応答やテキストから動画を検索するタスク)に適用することで、現在の動画・言語ベンチマークの限界と可能性を明らかにする。その結果、イベントの時間的進行性(時系列的構造)を理解することが、強力な性能や最先端の性能を達成するために必ずしも必要ではないことが判明した。これは、近年の大規模な動画・言語モデルと比較しても同様であり、より深い動画レベルの理解を評価することを目的とした文脈においても同様であった。さらに、ATPを活用することで、動画・言語データセットおよびモデル設計の両面で改善が可能であることを示す。具体的には、ATPを用いた手法により、時間的課題を高密度に含むデータサブセットをより明確に分離できるようになり、因果関係および時間的理解の評価効率が向上する。また、ATPを完全な動画レベルの時系列モデルに効果的に統合することで、モデルの効率性と最先端の精度の両方が向上することも示した。