2ヶ月前
自己監督型ビデオ表現学習におけるクロスストリームプロトタイプコントラスティング
Martine Toering; Ioannis Gatopoulos; Maarten Stol; Vincent Tao Hu

要約
インスタンスレベルの対照学習技術は、データ拡張と対照損失関数に依存しており、視覚表現学習の分野で大きな成功を収めています。しかし、これらの技術はビデオの豊かな動的構造を活用するのに適していません。これは、多くの拡張されたインスタンスに対して操作が行われるためです。本論文では、「ビデオクロスストリームプロトタイプ対照」(Video Cross-Stream Prototypical Contrasting)という新しい手法を提案します。この手法はRGBビューと光流ビューの両方から一貫したプロトタイプ割り当てを予測し、サンプルセット上で動作します。具体的には、最適化プロセスを交互に行います。あるストリームを最適化する際には、すべてのビューが1つのストリームプロトタイプベクトルセットにマッピングされます。各割り当ては、予測に一致しないすべてのビューを使用して予測され、表現が割り当てられたプロトタイプに近づくように推進されます。その結果、推論時に明示的な光流計算が必要なく、運動情報を内在化した効率的なビデオ埋め込みが学習されます。我々は最近傍ビデオ検索と行動認識において最先端の結果を得ており、S3Dバックボーンを使用してUCF101で以前の最高値を超える+3.2%(Top-1精度90.5%)、R(2+1)Dバックボーンを使用してUCF101で+7.2%およびHMDB51で+15.1%の改善を達成しています。