
타겟과 주변 방해물 사이를 구분하기 위한 차별화 모델을 학습하는 것은 일반적인 시각 객체 추적에 있어 필수적입니다. 방해물에 대응하여 동적으로 타겟 표현을 적응시키는 것은 기존 추적기들의 제한된 차별화 능력으로 인해 도전적입니다. 이 문제를 해결하기 위해 우리는 새로운 일반적인 시각 객체 추적(PiVOT)을 위한 시각 프롬프팅 메커니즘을 제시합니다. PiVOT는事前训练的基础模型CLIP(事前訓練の基礎モデルCLIP)와 함께 프롬프트 생성 네트워크를 제안하여 시각 프롬프트를 자동으로 생성하고 개선함으로써, 추적을 위한 기초 모델의 지식 전송을 가능하게 합니다. CLIP는 광범위한 범주 수준의 지식을 제공하지만, 인스턴스 특异性 데이터로 훈련된 추적기는 고유한 객체 인스턴스를 인식하는 데 뛰어납니다. 따라서 PiVOT는 먼저 잠재적인 타겟 위치를 강조하는 시각 프롬프트를 구성합니다. CLIP의 지식을 추적기에 전달하기 위해, PiVOT는 잠재적인 타겟 간 후보 객체와 참조 템플릿 간의 유사성을 기반으로 CLIP를 활용하여 시각 프롬프트를 개선합니다. 시각 프롬프트가 개선되면, 더 잘 잠재적인 타겟 위치를 강조할 수 있으며, 관련 없는 프롬프트 정보를 줄일 수 있습니다. 제안된 프롬프팅 메커니즘 덕분에, 추적기는 시각 프롬프트의 안내로 개선된 인스턴스 인식 특징 맵을 생성할 수 있어, 효과적으로 방해물을 줄일 수 있습니다. 제안된 방법은 훈련 과정에서 CLIP를 포함하지 않으므로, 같은 훈련 복잡도를 유지하면서 사전 훈련된 기초 모델의 일반화 능력을 보존합니다. 여러 벤치마크에서 수행된 광범위한 실험들은 PiVOT가 제안된 프롬프팅 방법을 사용하여 방해 객체들을 억제하고 추적기를 강화할 수 있음을 나타냅니다.注:在上述翻译中,“事前训练的基础模型CLIP(事前訓練の基礎モデルCLIP)”部分为中文和日文的误植,正确的韩文翻译应为“사전 훈련된 기초 모델 CLIP”。以下是修正后的版本:타겟과 주변 방해물 사이를 구분하기 위한 차별화 모델을 학습하는 것은 일반적인 시각 객체 추적에 있어 필수적입니다. 방해물에 대응하여 동적으로 타겟 표현을 적응시키는 것은 기존 추적기들의 제한된 차별화 능력으로 인해 도전적입니다. 이 문제를 해결하기 위해 우리는 새로운 일반적인 시각 객체 추적(PiVOT)을 위한 시각 프롬프팅 메커니즘을 제시합니다. PiVOT는 사전 훈련된 기초 모델 CLIP와 함께 프롬프트 생성 네트워크를 제안하여 시각 프롬프트를 자동으로 생성하고 개선함으로써, 추적을 위한 기초 모델의 지식 전송을 가능하게 합니다. CLIP는 광범위한 범주 수준의 지식을 제공하지만, 인스턴스 특이성 데이터로 훈련된 추적기는 고유한 객체 인스턴스를 인식하는 데 뛰어납니다. 따라서 PiVOT는 먼저 잠재적인 타겟 위치를 강조하는 시각 프롬프트를 구성합니다. CLIP의 지식을 추적기에 전달하기 위해, PiVOT는 잠재적인 타겟 간 후보 객체와 참조 템플릿 간의 유사성을 기반으로 CLIP를 활용하여 시각 프روم프트를 개선합니다. 시각 프롬프트가 개선되면, 더 잘 잠재적인 타겟 위치를 강조할 수 있으며, 관련 없는 프롬프트 정보를 줄일 수 있습니다. 제안된 프롬프팅 메커니즘 덕분에, 추적기는 시각 프롬프트의 안내로 개선된 인스턴스 인식 특징 맵을 생성할 수 있어, 효과적으로 방해물을 줄일 수 있습니다. 제안된 방법은 훈련 과정에서 CLIP를 포함하지 않으므로, 같은 훈련 복잡도를 유지하면서 사전 훈련된 기초 모델의 일반화 능력을 보존합니다. 여러 벤치마크에서 수행된 광범위한 실험들은 PiVOT가 제안된 프روم핑 방법을 사용하여 방해 객체들을 억제하고 추적기를 강화할 수 있음을 나타냅니다.