2ヶ月前
隠れ二ストリーム畳み込みニューラルネットワークを用いた動作認識
Yi Zhu; Zhenzhong Lan; Shawn Newsam; Alexander G. Hauptmann

要約
人間の行動を分析する際には、ビデオフレーム間の時間的な関係性を理解することが重要です。最先端の行動認識手法は、CNN(畳み込みニューラルネットワーク)に運動情報を事前に計算するために、従来の光学フロー推定方法に依存しています。このような二段階アプローチは、計算コストが高く、ストレージを必要とし、エンドツーエンドで学習できないという問題があります。本論文では、隣接するフレーム間の運動情報を暗黙的に捉える新しいCNNアーキテクチャを提案します。当方針を「隠れ二流CNNs」(hidden two-stream CNNs)と命名しました。これは、生のビデオフレームのみを入力として受け取り、光学フローを明示的に計算せずに直接行動クラスを予測します。我々のエンドツーエンドアプローチは、二段階ベースラインに比べて10倍速いです。UCF101, HMDB51, THUMOS14, ActivityNet v1.2 という4つの困難な行動認識データセットでの実験結果から、当方針がこれまでの最良のリアルタイム手法よりも著しく優れていることが示されました。