2ヶ月前

階層的特徴量集約ネットワークによるビデオアクション認識

Swathikiran Sudhakaran; Sergio Escalera; Oswald Lanz

要約

多くの行動認識手法は、a) 平均プーリング、最大プーリング、RNNなどのフレームレベルのCNN特徴量の遅延集約、または b) 3次元畳み込みを用いた空間時間的な集約のいずれかに基づいています。前者は一定の抽象度までフレーム特徴量が独立していると仮定し、その後高次の集約を行います。後者はグループ化されたフレームから初期融合として空間時間的な特徴量を抽出します。本論文では、これらの2つの手法の中間領域を探求し、高次の表現に発展する過程で隣接する特徴枝が相互作用することを提案します。この相互作用は階層の各レベルでの特徴差分と平均化の間に起こり、以前の研究がグローバルに特定のモード（例：特徴差分）を選択する設計選択肢であったのに対し、ローカルに適切なモードを選択する畳み込み構造を持っています。さらに、この相互作用を保存的であるように制約します。例えば、ある枝での局所的な特徴減算は他の枝での加算によって補償され、全体的な特徴フローが保たれます。我々は提案手法の性能をTSN, TRN, ECOなどの既存モデルで評価し、その柔軟性と行動認識性能向上への効果を示します。