HyperAIHyperAI

Command Palette

Search for a command to run...

Anregung für die mehrmodale Verfolgung

Jinyu Yang Zhe Li Feng Zheng* Aleš Leonardis Jingkuan Song

Zusammenfassung

Multimodales Tracking gewinnt an Bedeutung aufgrund seiner Fähigkeit, in komplexen Szenarien genauer und robuster zu sein als traditionelles RGB-basiertes Tracking. Der Schlüssel liegt darin, wie multimodale Daten fusioniert werden und der Lücke zwischen den Modalitäten verringert wird. Trotzdem leidet multimodales Tracking weiterhin stark unter einem Mangel an Daten, was zu einem unzureichenden Lernen der Fusionsschichten führt. Anstatt ein solches Fusionsschichtmodul zu bauen, präsentieren wir in diesem Artikel eine neue Perspektive auf multimodales Tracking, indem wir den Fokus auf multimodale visuelle Prompts legen. Wir entwickeln einen neuen multimodal prompt-gestützten Tracker (ProTrack), der die multimodalen Eingaben durch das Paradigma von Prompts in eine einzelne Modalität überträgt. Durch die optimale Nutzung der Verfolgungsfähigkeiten von vorab trainierten RGB-Trackern, die in großem Umfang gelernt haben, kann unser ProTrack hocheffektives multimodales Tracking erzielen, indem nur die Eingaben verändert werden, ohne zusätzliche Trainingsdaten für multimodale Daten zu benötigen. Ausführliche Experimente auf fünf Benchmark-Datensätzen zeigen die Effektivität des vorgeschlagenen ProTrack.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Anregung für die mehrmodale Verfolgung | Paper | HyperAI