12日前

動的シアモジアンネットワークを用いた視覚オブジェクト追跡の学習

{Rui Huang, Ce Zhou, Song Wang, Qing Guo, Liang Wan, Wei Feng}
動的シアモジアンネットワークを用いた視覚オブジェクト追跡の学習
要約

ターゲットの外観変化の時間的変動を効果的に学習し、雑多な背景の干渉を排除しながらリアルタイム応答を維持する方法は、視覚的オブジェクト追跡における基本的な課題である。近年、シアムネットワークは、精度とリアルタイム速度のバランスを実現するマッチングベースのトラッカーにおいて大きな潜在能力を示している。しかし、それらは、オブジェクトの時間的変化や撮影条件の変化に対する耐性において、分類および更新に基づくトラッカーと比較して依然として大きなギャップを有している。本論文では、過去のフレームからターゲット外観の変化および背景の抑制を効果的にオンライン学習できる高速変換学習モデルを用いて、動的なシアムネットワークを提案する。さらに、多層の深層特徴を用いてネットワーク出力を適応的に統合する要素単位の多層融合手法を導入する。最先端のトラッカーとは異なり、本手法はSiamFCやVGGなど、一般的または特定の目的で学習された任意の実用可能な特徴量を活用可能である。特に重要なのは、提案する動的シアムネットワークがラベル付き動画シーケンス上で全体として直接共同学習が可能であり、動きのあるオブジェクトが持つ豊富な空間的・時間的情報を最大限に活用できることである。その結果、本手法はOTB-2013およびVOT-2015ベンチマークにおいて最先端の性能を達成するとともに、最先端の競合手法と比較して、精度とリアルタイム応答性の優れたバランスを実現している。