2ヶ月前

ビデオにおける動作認識のための二重ストリーム畳み込みニューラルネットワーク

Karen Simonyan; Andrew Zisserman
ビデオにおける動作認識のための二重ストリーム畳み込みニューラルネットワーク
要約

ビデオにおける動作認識のための、識別学習された深層畳み込みネットワーク(ConvNets)のアーキテクチャについて調査を行いました。課題は、静止画から得られる外観情報とフレーム間の動き情報を補完的に捉えることです。また、データ駆動型学習フレームワーク内で最高性能を発揮する手作業で設計された特徴量を一般化することも目指しています。本研究の貢献は三つあります。第一に、空間ネットワークと時間ネットワークを組み込んだ二つのストリームを持つConvNetアーキテクチャを提案します。第二に、多フレーム密集光学フロー上で訓練されたConvNetが限られた訓練データにもかかわらず非常に高い性能を達成できることを示します。第三に、異なる二つの動作分類データセットに対してマルチタスク学習を適用することで、訓練データの量を増やし、両方のデータセットでの性能向上につながることを示します。我々のアーキテクチャはUCF-101およびHMDB-51という標準的なビデオ動作ベンチマークで訓練および評価されました。これらのベンチマークにおいて、当アーキテクチャは最先端技術と競争力があり、さらに以前の深層ネットワークを使用したビデオ分類試みよりも大幅に優れた性能を発揮しています。

ビデオにおける動作認識のための二重ストリーム畳み込みニューラルネットワーク | 最新論文 | HyperAI超神経