HyperAIHyperAI
il y a 2 mois

Amélioration du suivi d'objets visuels par le biais de l'incitation visuelle

Shih-Fang Chen; Jun-Cheng Chen; I-Hong Jhuo; Yen-Yu Lin
Amélioration du suivi d'objets visuels par le biais de l'incitation visuelle
Résumé

L'apprentissage d'un modèle discriminatif pour distinguer une cible de ses distractions environnantes est essentiel pour le suivi générique d'objets visuels. L'adaptation dynamique de la représentation de la cible face aux distractions est un défi en raison des capacités discriminatives limitées des trackers actuels. Nous présentons un nouveau mécanisme de visualisation (Prompting) pour le suivi générique d'objets visuels (PiVOT) afin de résoudre ce problème. PiVOT propose un réseau de génération de prompts avec le modèle pré-entraîné CLIP pour générer et affiner automatiquement des prompts visuels, permettant ainsi le transfert des connaissances du modèle fondamental pour le suivi. Bien que CLIP offre des connaissances catégorielles larges, le tracker, formé sur des données spécifiques à l'instance, excelle dans la reconnaissance d'instances d'objets uniques. Par conséquent, PiVOT compile d'abord un prompt visuel mettant en évidence les emplacements potentiels de la cible. Pour transférer les connaissances de CLIP au tracker, PiVOT utilise CLIP pour affiner le prompt visuel en fonction des similarités entre les objets candidats et les modèles de référence parmi les cibles potentielles. Une fois que le prompt visuel est affiné, il peut mieux mettre en évidence les emplacements potentiels de la cible, réduisant ainsi les informations non pertinentes du prompt. Grâce au mécanisme de prompting proposé, le tracker peut générer des cartes de caractéristiques plus précises et conscientes des instances grâce à la guidance du prompt visuel, réduisant efficacement les distractions. La méthode proposée n'utilise pas CLIP pendant l'entraînement, conservant ainsi la même complexité d'entraînement et préservant la capacité généralisatrice du modèle fondamental pré-entraîné. De nombreuses expériences sur plusieurs benchmarks indiquent que PiVOT, utilisant le mécanisme de prompting proposé, peut supprimer les objets distrayants et améliorer le tracker.

Amélioration du suivi d'objets visuels par le biais de l'incitation visuelle | Articles de recherche récents | HyperAI