
要約
従来の行動認識手法は、主に二重ストリームCNNや3D CNNといったクリップレベル分類器に基づいており、これらはランダムに選択されたクリップから学習され、テスト時には密にサンプリングされたクリップに適用される。しかし、この標準的な設定は分類器の学習にとって最適ではない可能性があり、実際の展開時には大きな計算負荷を伴う。これらの課題に対処するため、本研究では動的サンプリングモジュールを設計することで、学習されたクリップレベル分類器の識別力を向上させるとともに、テスト時の推論効率を高める新しい動的サンプリングネットワーク(Dynamic Sampling Networks; DSN)というフレームワークを提案する。具体的には、DSNはサンプリングモジュールと分類モジュールから構成され、それぞれの目的は、実行時にどのクリップを保持するかを動的に選択するサンプリング方策を学習し、選択されたクリップに基づいて行動認識を行うクリップレベル分類器を学習することである。特に、入力動画に対して、正しく予測されたクリップに対する報酬を最大化するように、関連強化学習(associative reinforcement learning)の枠組みで観測ネットワークを学習する。本研究では、UCF101、HMDB51、THUMOS14、ActivityNet v1.3の4つの行動認識データセットを用いて、DSNフレームワークのさまざまな側面を広範に検証した。実験結果から、DSNは使用するクリップ数を半分未満に抑えることで、最先端手法と同等またはわずかに優れた認識精度を達成しつつ、推論効率を大幅に向上させることを示した。