2ヶ月前
時間セグメントネットワーク:深層行動認識の良識的な実践に向けて
Wang, Limin ; Xiong, Yuanjun ; Wang, Zhe ; Qiao, Yu ; Lin, Dahua ; Tang, Xiaoou ; Van Gool, Luc

要約
深層畳み込みネットワークは、静止画像の視覚認識において大きな成功を収めています。しかし、動画における行動認識に関しては、従来の手法に対する優位性がそれほど明確ではありません。本論文では、動画の行動認識に効果的なConvNetアーキテクチャの設計原理を発見し、限られた訓練サンプルからこれらのモデルを学習することを目指しています。我々の最初の貢献は、長期的な時間構造モデリングのアイデアに基づく新しい動画ベースの行動認識フレームワークである時間セグメントネットワーク(Temporal Segment Network, TSN)です。このフレームワークは、疎な時間サンプリング戦略と動画レベルの監督を組み合わせることで、全体の行動動画を使用した効率的かつ効果的な学習を可能にします。もう一つの貢献は、時間セグメントネットワークを用いて動画データからConvNetを学習する際の一連の良い実践方法に関する研究です。我々のアプローチはHMDB51(69.4%)およびUCF101(94.2%)データセットにおいて最先端の性能を達成しました。また、学習されたConvNetモデルを可視化することで、時間セグメントネットワークと提案された良い実践方法の有効性が定性的に示されています。