
要約
映像内の対象の外見の変化、姿勢・視点の変化、および幾何学的変形により、正確な追跡は依然として困難な課題である。近年のアンカーフリー追跡手法は効率的な回帰機構を提供しているが、正確なバウンディングボックス推定を実現できていない。本論文では、この問題に対処するために、対象テンプレートと検索領域内の要素間のペアワイズ関係をモデル化し、その結果得られる強化された対象視覚表現を用いて高精度なバウンディングボックス回帰を実現する、Transformerに類似した回帰ブランチ「Target Transformed Regression(TREG)」を提案する。TREGの核となるのは、対象の文脈情報を捉えた表現を構築することであり、これにより対象に関連する情報を強化し、ボックス境界の正確な位置推定を可能にするとともに、局所的かつ密なマッチング機構により、一定程度の物体変形に対応できる。さらに、信頼性の高いテンプレートを選択するシンプルなオンラインテンプレート更新機構を導入することで、時間的な外見変化や幾何学的変形に対する追跡のロバスト性を向上させた。VOT2018、VOT2019、OTB100、GOT10k、NFS、UAV123、LaSOT、TrackingNetといった視覚追跡ベンチマークにおける実験結果から、TREGは最先端の性能を達成しており、LaSOTでは成功率0.640を記録しつつ、約30 FPSで実行可能である。コードおよびモデルは、https://github.com/MCG-NJU/TREG にて公開される予定である。