7日前

ポイント追跡のためのローカル全ペア対応

Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
ポイント追跡のためのローカル全ペア対応
要約

我々は、動画シーケンス全体にわたり任意の点(TAP: Tracking Any Point)を高精度かつ効率的に追跡するためのモデル「LocoTrack」を提案する。従来の手法は、クエリ画像内の点からターゲット画像内の局所領域への対応関係を確立するために、主に局所的な2次元相関マップに依存しているが、これにより均質な領域や繰り返しの多い特徴量において対応の曖昧さが生じやすく、追跡の信頼性が低下する傾向があった。LocoTrackは、領域間のすべてのペアに対応関係を用いる画期的なアプローチ——すなわち局所的な4次元相関——を採用することで、正確な対応関係の確立を実現。さらに、双方向対応とマッチングの滑らかさを導入することで、曖昧性に対する堅牢性を大幅に向上させている。また、計算効率を高めるための軽量な相関エンコーダと、長期的な時系列情報を効果的に統合するコンパクトなTransformerアーキテクチャを組み合わせている。実験結果から、LocoTrackはすべてのTAP-Vidベンチマークにおいて、従来の最先端手法を上回る高い精度を達成するとともに、処理速度は同手法のほぼ6倍の速さで動作することが明らかになった。

ポイント追跡のためのローカル全ペア対応 | 最新論文 | HyperAI超神経