9ヶ月前

概要

動作表現は、ビデオにおける人間の行動認識において重要な役割を果たしています。本研究では、ビデオ行動認識のために新しいコンパクトな動作表現である「Optical Flow guided Feature（OFF）」を提案します。この手法により、ネットワークが高速かつ堅牢な方法で時間情報を抽出することが可能になります。OFFは光学流の定義に基づいて導出され、光学流に対して直交しています。この導出過程は、2つのフレーム間の差を使用することの理論的根拠も提供します。深層特徴マップの画素単位での時空間勾配を直接計算することで、OFFは既存のCNNベースのビデオ行動認識フレームワークにわずかな追加コストで組み込むことができます。これにより、CNNは同時に時空間情報、特にフレーム間の時間情報を抽出することが可能になります。この単純ながら強力なアイデアは実験結果によって検証されています。RGB入力のみを使用するOFF付きネットワークはUCF-101データセットで競争力のある93.3%の精度を達成し、これはRGBと光学流の2ストリームを使用した場合と同等ですが、速度は15倍速いです。実験結果はまた、OFFが光学流などの他の動作モダリティと補完的な関係にあることを示しています。提案手法を最先端のビデオ行動認識フレームワークに組み込むと、UCF-101とHMDB-51データセットでそれぞれ96.0%と74.2%の精度が得られました。本プロジェクトのコードはhttps://github.com/kevin-ssy/Optical-Flow-Guided-Feature から入手可能です。注：文中に「96:0%」や「74:2%」という表記がありますが、「96.0%」や「74.2%」の方が一般的な表記ですので修正しました。

ソースPDF