17日前
TS2-Net:テキスト-ビデオ検索のためのトークンシフトおよび選択トランスフォーマー
Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin

要約
テキスト-ビデオ検索は実用的な価値が高く、近年注目が集まっているタスクであり、その中でも時空間的ビデオ表現の学習は研究のホットトピックの一つである。現在の最先端のビデオ検索モデルにおけるビデオエンコーダは、通常、ネットワーク構造が固定された事前学習済みの視覚バックボーンを直接採用しているため、細粒度な時空間的ビデオ表現をより高精度に生成するための改善が困難である。本論文では、新たなトークンシフトおよび選択TransformerアーキテクチャであるToken Shift and Selection Network(TS2-Net)を提案する。TS2-Netは、入力ビデオサンプルから時系列および空間的次元の両方において、動的にトークン列を調整し、情報量の多いトークンを選択する。トークンシフトモジュールは、隣接フレーム間で全トークン特徴を前後に時系列的にシフトすることで、完全なトークン表現を保持し、微細な動きを捉える。その後、トークン選択モジュールが局所的な空間的意味に最も寄与するトークンを選定する。広範な実験の結果、提案手法TS2-NetはMSRVTT、VATEX、LSMDC、ActivityNet、DiDeMoを含む主要なテキスト-ビデオ検索ベンチマークにおいて最先端の性能を達成し、MSRVTT、VATEX、LSMDC、ActivityNet、DiDeMoの各データセットで新たな記録を樹立した。