17日前
VideoMoCo:時系列アドバーシャル例を用いた対照的動画表現学習
Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu

要約
MoCoは、教師なし画像表現学習において有効である。本論文では、教師なし動画表現学習を目的として、VideoMoCoを提案する。入力サンプルとして動画シーケンスを用いることで、MoCoの時間的特徴表現を二つの観点から改善する。第一に、生成器を導入し、このサンプルから時間的に複数のフレームを削除する。その後、フレームの削除に関わらず類似した特徴表現を符号化できるように、識別器を学習する。敵対学習の訓練反復において適応的に異なるフレームを削除することで、入力サンプルを拡張し、時間的に堅牢なエンコーダーを学習する。第二に、対照学習の損失を計算する際のメモリキューにおけるキーディケイション(キーディケイションとは、キュー内のキーベクトルの時間的劣化を表す概念)を時間的減衰(temporal decay)を用いてモデル化する。モーメンタムエンコーダーはキューへのキーデンキュー後に更新されるため、現在の入力サンプルを用いた対照学習において、これらのキーベクトルの表現能力は低下する。この低下は時間的減衰を介して、入力サンプルがキュー内の最近のキーベクトルに注目するように反映される。その結果、事前に前処理タスク(pretext task)を設計することなく、MoCoを動画表現学習に適応可能となる。時間的堅牢性の強化とキーベクトルの時間的減衰のモデル化を通じて、本手法は対照学習に基づき、MoCoの時間的性能を向上させる。UCF101やHMDB51を含む標準ベンチマークデータセットにおける実験結果から、VideoMoCoが最先端の動画表現学習手法であることが示された。