17日前

対照学習を用いた動画検索における時系列コンテキストの集約

Jie Shao, Xin Wen, Bingchen Zhao, Xiangyang Xue
対照学習を用いた動画検索における時系列コンテキストの集約
要約

現在のコンテンツベース動画検索(Content-Based Video Retrieval)における研究は、関連する出来事やイベントなどの長期的な意味的依存関係を記述する高次元の動画表現を求めるようになっている。しかし、従来の手法は動画のフレームを個々の画像や短いクリップとして処理するため、長期的な意味的依存関係のモデル化が困難である。本論文では、自己注意機構(self-attention mechanism)を用いてフレームレベル特徴間の長期的時系列情報を統合する、動画表現学習フレームワーク「TCA(Temporal Context Aggregation for Video Retrieval)」を提案する。動画検索データセット上でこのモデルを訓練するため、自動的にハードネガティブサンプルをマイニングし、メモリバンク機構を活用してネガティブサンプルの容量を拡張する教師付き対照学習(supervised contrastive learning)手法も提案する。CC_WEB_VIDEO、FIVR-200K、EVVEなど複数の動画検索タスクにおいて広範な実験を実施した結果、動画レベル特徴を用いる最先端手法と比較して、FIVR-200Kにおいて約17%のmAP向上を達成し、顕著な性能優位性を示した。また、フレームレベル特徴を用いる手法と比較して、22倍高速な推論時間を実現しつつ、競争力のある結果をもたらした。