
要約
本稿の目的は、画像-テキストモデルを長時間動画の検索タスクに適応することである。近年の研究では、CLIPを採用することで、画像-テキスト表現を活用して動画検索において最先端の性能を達成している。しかし、CLIPによって各フレームごとに抽出された画像レベル表現を平均プーリングする手法を上回る時間的集約(temporal aggregation)の学習には、限定的な成功にとどまっている。本研究では、クエリスコアに基づくフレーム埋め込みの重み付き平均という、単純ながら効果的なベースラインが、従来の時間的モデリング手法および平均プーリングを大幅に上回ることを発見した。この成果により、他の研究者が比較するための改善されたベースラインを提供するとともに、長時間動画検索の複数のベンチマークにおいて、この単純なベースラインが最先端の性能を示すことを実証した。