2ヶ月前

ビデオオブジェクト検出のためのシーケンスレベル意味集合

Haiping Wu; Yuntao Chen; Naiyan Wang; Zhaoxiang Zhang
ビデオオブジェクト検出のためのシーケンスレベル意味集合
要約

ビデオ物体検出(VID)は近年、急速に注目を集めている研究分野である。VIDの中心的な課題は、高速な動きによってビデオフレームの画質が劣化することである。この問題は、単一のフレームに対して本質的に解釈が困難であるため、他のフレームからの特徴量を統合することが自然な選択肢となる。既存の手法では、光学フローまたは再帰型ニューラルネットワークを用いて特徴量を統合する方法が重宝されているが、これらの手法は時間的に近いフレームに重点を置いている。本研究では、全シーケンスレベルでの特徴量統合がビデオ物体検出においてより識別力があり且つ堅牢な特徴量につながると主張する。この目標を達成するために、新しいシーケンスレベルセマンティクスアグリゲーション(SELSA)モジュールを開発した。さらに、提案手法と古典的なスペクトルクラスタリング手法との密接な関係を示し、VID問題の理解に新たな視点を提供する。提案手法をImageNet VIDおよびEPIC KITCHENSデータセットでテストし、最新の最先端結果を得た。当手法はSeq-NMSやTubelet rescoringなどの複雑な後処理手法を必要とせず、パイプラインをシンプルかつ明快に保つことができる。

ビデオオブジェクト検出のためのシーケンスレベル意味集合 | 最新論文 | HyperAI超神経