17日前

効率的な動画オブジェクト検出のための注目領域学習

Zhengkai Jiang, Yu Liu, Ceyuan Yang, Jihao Liu, Peng Gao, Qian Zhang, Shiming Xiang, Chunhong Pan
効率的な動画オブジェクト検出のための注目領域学習
要約

既存の画像ベースの検出器を動画へ移行することは、部分的遮蔽、稀なポーズ、運動ブラーなどの要因によりフレーム品質が低下するため、容易ではない。従来の手法では、光流変換(optical flow-warping)を用いて動画フレーム間で特徴を伝搬・集約するアプローチが採用されている。しかし、高レベル特徴に画像レベルの光流を直接適用すると、正確な空間的対応関係を確立することができない場合がある。そこで、隣接フレーム特徴間の意味論的対応関係を正確に学習するため、新たに「学習可能な時空間サンプリング(Learnable Spatio-Temporal Sampling, LSTS)」モジュールが提案された。LSTSでは、サンプリング位置を初期状態でランダムに設定し、検出の教師信号に従って段階的に更新することで、より良い空間的対応関係を逐次的に探索する。さらに、時系列的関係をモデル化するための「スパース再帰的特徴更新(Sparsely Recursive Feature Updating, SRFU)」モジュールと、各フレーム特徴を強化するための「密な特徴集約(Dense Feature Aggregation, DFA)」モジュールも導入されている。装飾的な要素を一切用いずに、本手法は計算量の低さとリアルタイム処理速度を実現しつつ、ImageNet VIDデータセットにおいて最先端の性能を達成した。コードは、https://github.com/jiangzhengkai/LSTS にて公開される予定である。

効率的な動画オブジェクト検出のための注目領域学習 | 最新論文 | HyperAI超神経