HyperAIHyperAI

Command Palette

Search for a command to run...

階層的特徴量集約ネットワークによるビデオアクション認識

Swathikiran Sudhakaran Sergio Escalera Oswald Lanz

概要

多くの行動認識手法は、a) 平均プーリング、最大プーリング、RNNなどのフレームレベルのCNN特徴量の遅延集約、または b) 3次元畳み込みを用いた空間時間的な集約のいずれかに基づいています。前者は一定の抽象度までフレーム特徴量が独立していると仮定し、その後高次の集約を行います。後者はグループ化されたフレームから初期融合として空間時間的な特徴量を抽出します。本論文では、これらの2つの手法の中間領域を探求し、高次の表現に発展する過程で隣接する特徴枝が相互作用することを提案します。この相互作用は階層の各レベルでの特徴差分と平均化の間に起こり、以前の研究がグローバルに特定のモード(例:特徴差分)を選択する設計選択肢であったのに対し、ローカルに適切なモードを選択する畳み込み構造を持っています。さらに、この相互作用を保存的であるように制約します。例えば、ある枝での局所的な特徴減算は他の枝での加算によって補償され、全体的な特徴フローが保たれます。我々は提案手法の性能をTSN, TRN, ECOなどの既存モデルで評価し、その柔軟性と行動認識性能向上への効果を示します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています