HyperAIHyperAI
vor 2 Monaten

Verbesserung der visuellen Objektverfolgung durch visuelle Anreize

Shih-Fang Chen; Jun-Cheng Chen; I-Hong Jhuo; Yen-Yu Lin
Verbesserung der visuellen Objektverfolgung durch visuelle Anreize
Abstract

Das Lernen eines diskriminativen Modells zur Unterscheidung eines Ziels von seinen umgebenden Ablenkern ist für die generische visuelle Objektverfolgung essentiell. Die dynamische Anpassung der Zielrepräsentation gegen Ablenker ist aufgrund der begrenzten diskriminativen Fähigkeiten gängiger Tracker herausfordernd. Wir präsentieren ein neues visuelles Prompting-Mechanismus für die generische Visuelle Objektverfolgung (PiVOT), um dieses Problem anzugehen. PiVOT schlägt ein Prompt-Generierungsnetzwerk vor, das das vortrainierte Grundmodell CLIP verwendet, um visuelle Prompts automatisch zu generieren und zu verfeinern. Dies ermöglicht den Transfer des Wissens des Grundmodells für die Verfolgung. Während CLIP umfassendes Kategorie-Level-Wissen anbietet, übertrifft der Tracker, der auf instanzspezifischen Daten trainiert wurde, in der Erkennung einzigartiger Objektinstanzen. Daher erstellt PiVOT zunächst einen visuellen Prompt, der potenzielle Zielpositionen hervorhebt. Um das Wissen von CLIP auf den Tracker zu übertragen, nutzt PiVOT CLIP, um den visuellen Prompt basierend auf den Ähnlichkeiten zwischen Kandidatenobjekten und Referenzvorlagen bei potenziellen Zielen zu verfeinern. Sobald der visuelle Prompt verfeinert wurde, kann er potenzielle Zielpositionen besser hervorheben und damit irrelevantes Prompt-Information reduzieren. Mit dem vorgeschlagenen Prompting-Mechanismus kann der Tracker durch die Führung des visuellen Prompts verbesserte instanzbewusste Merkmalskarten generieren und so effektiv Ablenkungen reduzieren. Die vorgeschlagene Methode bezieht sich während des Trainings nicht auf CLIP, wodurch die gleiche Trainingskomplexität beibehalten wird und die Generalisierungsfähigkeit des vortrainierten Grundmodells erhalten bleibt. Ausführliche Experimente mit mehreren Benchmarks zeigen, dass PiVOT durch die Verwendung des vorgeschlagenen Prompting-Verfahrens ablenkende Objekte unterdrücken und den Tracker verbessern kann.

Verbesserung der visuellen Objektverfolgung durch visuelle Anreize | Neueste Forschungsarbeiten | HyperAI