2ヶ月前

視覚プロンプティングを用いた視覚物体追跡の改善

Shih-Fang Chen; Jun-Cheng Chen; I-Hong Jhuo; Yen-Yu Lin
視覚プロンプティングを用いた視覚物体追跡の改善
要約

目標と周囲の妨害物を区別するための判別モデルを学習することは、一般的な視覚的物体追跡において重要である。妨害物に対する動的な目標表現適応は、現行の追跡器の限られた判別能力により困難である。本稿では、この問題に対処するために新しい視覚的プロンプティングメカニズム(PiVOT)を提案する。PiVOTは、事前学習済みの基盤モデルCLIPを使用したプロンプト生成ネットワークを提案し、視覚的プロンプトを自動的に生成および精製することで、基盤モデルの知識を追跡に転送可能にする。CLIPは広範なカテゴリレベルの知識を提供する一方で、インスタンス固有データで訓練された追跡器は独自の物体インスタンス認識に優れている。したがって、PiVOTはまず潜在的な目標位置を強調する視覚的プロンプトを作成する。CLIPの知識を追跡器に転送するために、PiVOTは候補物体と参照テンプレートとの類似性に基づいて視覚的プロンプトを精製する。これにより、視覚的プロンプトがより効果的に潜在的な目標位置を強調し、関連性の低いプロンプト情報を削減できるようになる。提案されたプロンプティングメカニズムにより、追跡器は視覚的プロンプトのガイダンスを通じて改善されたインスタンス認識特徴マップを生成でき、これにより妨害物が効果的に削減される。提案手法では学習時にCLIPを使用しないため、同じ学習複雑さが維持されるとともに基盤モデルの汎化能力も保たれる。複数のベンチマークにおける広範な実験結果から、提案されたプロンプティング方法を使用したPiVOTが妨害物を抑制し追跡性能を向上させることを示している。注:「visual Prompting mechanism for generic Visual Object Tracking (PiVOT)」という用語は日本語では「一般的な視覚的物体追跡用の視覚的プロンプティングメカニズム(PiVOT)」と訳しました。「prompt generation network」は「プロンプト生成ネットワーク」と訳しました。「foundation model」は「基盤モデル」と訳しました。「instance-specific data」は「インスタンス固有データ」と訳しました。「reference templates」は「参照テンプレート」と訳しました。「feature maps」は「特徴マップ」と訳しました。

視覚プロンプティングを用いた視覚物体追跡の改善 | 最新論文 | HyperAI超神経