2ヶ月前

時間セグメントネットワークによる動画中の行動認識

Wang, Limin ; Xiong, Yuanjun ; Wang, Zhe ; Qiao, Yu ; Lin, Dahua ; Tang, Xiaoou ; Van Gool, Luc
時間セグメントネットワークによる動画中の行動認識
要約

深層畳み込みネットワークは画像認識において大きな成功を収めています。しかし、ビデオ中の動作認識に関しては、従来の手法に対する優位性がそれほど明確ではありません。本稿では、ビデオ全体の動作モデル学習に向けた一般的かつ柔軟なフレームワークを提案します。この方法は時間区間ネットワーク(Temporal Segment Network, TSN)と呼ばれ、新しい区間ベースのサンプリングおよび集約モジュールを使用して長期的な時間構造をモデル化することを目指しています。この独自の設計により、TSNは全動作ビデオを用いて効率的に動作モデルを学習することが可能となります。学習されたモデルは、単純な平均プーリングと多尺度時間ウィンドウ統合によって、トリミング済みおよび未トリミングのビデオにおける動作認識に容易に適応することができます。また、限られた訓練サンプルのもとでTSNフレームワークを具体化するための一連の良好な実践についても研究しました。当該アプローチは4つの挑戦的な動作認識ベンチマークで最先端の性能を達成しています:HMDB51(71.0%)、UCF101(94.9%)、THUMOS14(80.1%)、ActivityNet v1.2(89.6%)。提案されたRGB差分を使用した運動モデルでは、UCF101において競争力のある精度(91.0%)を達成しつつ、340 FPSで実行できることが示されています。さらに、時間区間ネットワークに基づき、2016年のActivityNetチャレンジにおける24チーム中、ビデオ分類トラックで優勝しました。これはTSNおよび提案された良好な実践の有効性を証明しています。

時間セグメントネットワークによる動画中の行動認識 | 最新論文 | HyperAI超神経