2ヶ月前
OneTracker: 視覚的オブジェクト追跡を統合する基盤モデルと効率的なチューニング
Lingyi Hong; Shilin Yan; Renrui Zhang; Wanyun Li; Xinyu Zhou; Pinxue Guo; Kaixun Jiang; Yiting Chen; Jinglun Li; Zhaoyu Chen; Wenqiang Zhang

要約
視覚物体追跡は、最初のフレームでの初期姿から各フレームにおける目標物体を局在化することを目指しています。入力モダリティに応じて、追跡タスクはRGB追跡とRGB+X(例:RGB+N、RGB+D)追跡に分類されます。異なる入力モダリティにもかかわらず、追跡の核心的な側面は時間的なマッチングです。この共通点に基づいて、我々は様々な追跡タスクを統一する一般的なフレームワークを提案します。これをOneTrackerと呼びます。OneTrackerはまず、Foundation Trackerと呼ばれるRGB追跡器で大規模な事前学習を行います。この事前学習フェーズにより、Foundation Trackerには目標物体の位置を安定して推定する能力が備わります。次に、他のモダリティ情報をプロンプトとして扱い、Foundation Trackerの上にPrompt Trackerを構築します。Foundation Trackerを凍結し、一部の追加学習可能なパラメータのみを調整することで、Prompt TrackerはFoundation Trackerからの強力な局在化能力を抑制し、下流のRGB+X追跡タスクに対するパラメータ効率的な微調整を実現します。我々の一般的なフレームワークOneTracker(Foundation TrackerとPrompt Trackerから構成)の有効性を評価するために、11つのベンチマークにわたる6つの人気のある追跡タスクで広範な実験を行いました。その結果、OneTrackerは他のモデルを上回り、最先端の性能を達成しました。