HyperAIHyperAI

Command Palette

Search for a command to run...

動画における行動認識のための時系列セグメントネットワーク

概要

深層畳み込みネットワークは、画像認識において大きな成功を収めてきた。しかし、動画における行動認識においては、従来の手法との比較においてその優位性は必ずしも明確ではない。本研究では、動画内の行動モデルを学習するための汎用的かつ柔軟なビデオレベルのフレームワークを提案する。この手法は「時系列セグメントネットワーク(Temporal Segment Network, TSN)」と呼ばれ、新たなセグメントベースのサンプリングおよび集約モジュールを用いて、長距離の時系列構造をモデル化することを目的としている。この独自の設計により、TSNは行動全体を活用して効率的に行動モデルを学習可能となる。学習されたモデルは、それぞれ単純な平均プーリングとマルチスケール時系列ウィンドウ統合を用いることで、トリム付きおよびトリムなしの動画における行動認識に容易に適用できる。また、限られた訓練データを用いたTSNフレームワークの実装に際しての良好な実践手法についても検討した。本手法は、4つの挑戦的な行動認識ベンチマークにおいて最先端の性能を達成した。具体的には、HMDB51(71.0%)、UCF101(94.9%)、THUMOS14(80.1%)、ActivityNet v1.2(89.6%)である。提案するRGB差分を用いた運動モデルにより、UCF101においても91.0%の競争力のある精度を達成しつつ、340 FPSの高速処理が可能となった。さらに、時系列セグメントネットワークを基盤として、24チームが参加したActivityNet Challenge 2016のビデオ分類トラックで優勝を果たした。これは、TSNおよび提案する良好な実践手法の有効性を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています