17日前

MARS:行動認識のためのモーション補強RGBストリーム

{ Cordelia Schmid, Karteek Alahari, Philippe Weinzaepfel, Nieves Crasto}
MARS:行動認識のためのモーション補強RGBストリーム
要約

現在の最先端の動作認識手法の多くは、3D畳み込みを用いた二重ストリームアーキテクチャで構成されており、RGBフレームを処理する外観ストリームと、光学フロー(optical flow)フレームを処理する運動ストリームから成る。RGBと光学フローを組み合わせることで性能が向上する一方で、高精度な光学フローの計算コストは高く、動作認識のレイテンシを増大させる。このため、低レイテンシを要する実世界アプリケーションにおいて、二重ストリームアプローチの活用は制限される。本論文では、テスト時における光学フロー計算を回避しつつ、標準の3D CNN(RGBフレームを入力とする)が運動ストリームの振る舞いを模倣できるよう学習するための2つの学習手法を提案する。第一に、光学フローストリームと比較して特徴量ベースの損失を最小化することで、ネットワークが運動ストリームを高精度で再現できることを示す。第二に、外観情報と運動情報を効果的に統合するため、特徴量ベースの損失と標準的な交差エントロピー損失の線形結合を用いて学習を行う。この結合損失を用いて訓練されたストリームを「運動増強RGBストリーム(Motion-Augmented RGB Stream: MARS)」と呼ぶ。単一ストリームとしてのMARSは、RGBストリームや光学フローストリーム単独よりも優れた性能を示し、Kineticsデータセットにおける正確率は72.7%に達する。これは、RGBストリームの72.0%および光学フローストリームの65.6%を上回る結果である。