
要約
現在の動画理解モデルにおいて、時間のモデリングと理解は依然として大きな課題である。言語が強力な汎化能力をもたらす重要な要因として浮上している中で、基盤となる動画-言語モデルには時間の感覚が不可欠である。本論文では、時間理解の特定の側面に注目する:前後関係(before/after関係)によって提示される時間順序の一貫性。我々は、既存の7つの動画-言語モデルが、こうした単純な時間的関係さえも理解できていないことを実証した。その後、これらの基盤モデルを完全に再訓練することなく、時間認識能力を付与することが可能かどうかを検討した。そのために、少量の動画-テキストデータを用いた後学習(post-pretraining)に基づく、VideoCLIPモデルを対象とした時間適応手法を提案する。提案手法により得られたモデルに対して、時間認識の度合いが異なる3つの下流タスクを対象に、6つのデータセット上でゼロショット評価を実施した。その結果、時間認識がより重要なタスクにおいて特に顕著な性能向上が観察された。本研究は、完全に再訓練を行うことなく、既存の動画-言語モデルに時間の感覚を導入・探査するための第一歩を示すものである。