2ヶ月前

リアルタイム視覚追跡のためのより深いおよび広いシアムネットワーク

Zhipeng Zhang; Houwen Peng
リアルタイム視覚追跡のためのより深いおよび広いシアムネットワーク
要約

シAMESEネットワークは、その精度と速度のバランスが優れているため、視覚追跡分野で大きな注目を集めています。しかし、シAMESEトラッカーで使用されるバックボーンネットワークは比較的浅く、AlexNet [18]などがあげられ、現代の深層ニューラルネットワークの能力を十分に活用できていないのが現状です。本論文では、より深いおよび幅広い畳み込みニューラルネットワークを活用して追跡の堅牢性と精度を向上させる方法について調査しました。既存の強力なアーキテクチャ(ResNet [14]やInception [33]など)をバックボーンに直接置き換えるだけでは改善が見られないことを確認しました。その主な理由は、1) ニューロンの感受野の大幅な増加により特徴量の識別性と位置特定精度が低下すること、2) 畳み込み処理におけるネットワークパディングが学習時の位置バイアスを引き起こすことであると考えられます。これらの問題に対処するため、パディングによる負の影響を排除する新しい残差モジュールを提案し、さらにこれらのモジュールを使用して制御された感受野サイズとネットワークストライドを持つ新しいアーキテクチャを設計しました。設計したアーキテクチャは軽量であり、SiamFC [2]やSiamRPN [20]に適用することでリアルタイム追跡速度を保証します。実験結果によると、提案したネットワークアーキテクチャのみによって、OTB-15データセットでは最大9.8%(AUC)、VOT-16データセットでは最大23.3%(EAO)、VOT-17データセットでは最大25.0%(EAO)という相対的な改善が得られました。それぞれのデータセットにおいて、SiamFC+とSiamRPN+は元のバージョン [2, 20]に対して大幅な性能向上を示しています。

リアルタイム視覚追跡のためのより深いおよび広いシアムネットワーク | 最新論文 | HyperAI超神経