HyperAIHyperAI
vor 2 Monaten

Anregung für die mehrmodale Verfolgung

Jinyu Yang; Zhe Li; Feng Zheng; Aleš Leonardis; Jingkuan Song
Anregung für die mehrmodale Verfolgung
Abstract

Multimodales Tracking gewinnt an Bedeutung aufgrund seiner Fähigkeit, in komplexen Szenarien genauer und robuster zu sein als traditionelles RGB-basiertes Tracking. Der Schlüssel liegt darin, wie multimodale Daten fusioniert werden und der Lücke zwischen den Modalitäten verringert wird. Trotzdem leidet multimodales Tracking weiterhin stark unter einem Mangel an Daten, was zu einem unzureichenden Lernen der Fusionsschichten führt. Anstatt ein solches Fusionsschichtmodul zu bauen, präsentieren wir in diesem Artikel eine neue Perspektive auf multimodales Tracking, indem wir den Fokus auf multimodale visuelle Prompts legen. Wir entwickeln einen neuen multimodal prompt-gestützten Tracker (ProTrack), der die multimodalen Eingaben durch das Paradigma von Prompts in eine einzelne Modalität überträgt. Durch die optimale Nutzung der Verfolgungsfähigkeiten von vorab trainierten RGB-Trackern, die in großem Umfang gelernt haben, kann unser ProTrack hocheffektives multimodales Tracking erzielen, indem nur die Eingaben verändert werden, ohne zusätzliche Trainingsdaten für multimodale Daten zu benötigen. Ausführliche Experimente auf fünf Benchmark-Datensätzen zeigen die Effektivität des vorgeschlagenen ProTrack.