OneTracker : Unification du suivi d'objets visuels avec les modèles fondamentaux et un réglage efficace

Le suivi d'objets visuels vise à localiser l'objet cible dans chaque image en se basant sur son apparence initiale dans la première image. Selon la modalité d'entrée, les tâches de suivi peuvent être divisées en suivi RGB et suivi RGB+X (par exemple, RGB+N et RGB+D). Bien que les modalités d'entrée soient différentes, l'aspect central du suivi est le couplage temporel. Sur cette base commune, nous présentons un cadre général pour unifier diverses tâches de suivi, appelé OneTracker. OneTracker commence par une pré-formation à grande échelle sur un suiveur RGB appelé Suiveur Fondation. Cette phase de pré-formation dote le Suiveur Fondation d'une capacité stable à estimer la position de l'objet cible. Ensuite, nous considérons les informations des autres modalités comme des prompts et construisons un Suiveur Prompt au-dessus du Suiveur Fondation. En gelant le Suiveur Fondation et en ajustant uniquement certains paramètres supplémentaires entraînables, le Suiveur Prompt inhibe la forte capacité de localisation du Suiveur Fondation et réalise une adaptation efficace en termes de paramètres pour les tâches de suivi RGB+X en aval. Pour évaluer l'efficacité de notre cadre général OneTracker, qui comprend le Suiveur Fondation et le Suiveur Prompt, nous menons des expériences approfondies sur 6 tâches de suivi populaires à travers 11 benchmarks, et notre OneTracker surpassant les autres modèles atteint des performances de pointe.