17日前

NSNet:効率的な動画認識のための非顕著性抑制サンプラー

Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang
NSNet:効率的な動画認識のための非顕著性抑制サンプラー
要約

低コストな計算環境下における人工知能システムによる正確な動画認識は、依然として大きな課題である。適応型推論に基づく効率的な動画認識手法は、動画の事前プレビューを行い、注目すべき部分に焦点を当てることで計算コストを削減するが、既存の多くは動画分類を目的とした複雑なネットワーク学習に注力している。多くの研究では、すべてのフレームを正例として扱い、正例(注目フレーム)と負例(非注目フレーム)の区別を学習の観点から十分に考慮していない。このギャップを埋めるために、本論文では非注目フレームの応答を効果的に抑制する新たな手法である「Non-saliency Suppression Network(NSNet)」を提案する。具体的には、フレームレベルでは、注目フレームと非注目フレームを明確に区別できる有効な擬似ラベルを生成し、フレームの注目度学習をガイドする。また、動画レベルでは、注目表現と非注目表現の両方に対して二重の動画レベルの教師信号を用いて、時系列的注意モジュールを学習する。この2つのレベルから得られる注目度測定値を統合することで、多粒度の補完的情報を活用する。4つの代表的なベンチマーク上で実施した広範な実験により、NSNetが最先端の精度-効率トレードオフを達成するとともに、既存の最先端手法と比較して実用的な推論速度が2.4~4.3倍高速であることが確認された。本研究のプロジェクトページは以下の通り:https://lawrencexia2008.github.io/projects/nsnet

NSNet:効率的な動画認識のための非顕著性抑制サンプラー | 最新論文 | HyperAI超神経