HyperAIHyperAI
vor 2 Monaten

Middle Fusion und Mehrstufige, Mehrformige Anweisungen für Robustes RGB-T-Tracking

Qiming Wang; Yongqiang Bai; Hongxing Song
Middle Fusion und Mehrstufige, Mehrformige Anweisungen für Robustes RGB-T-Tracking
Abstract

Die RGB-T-Verfolgung, eine wichtige untergeordnete Aufgabe der Objektverfolgung, hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Dennoch wird sie von zwei Hauptproblemen behindert: 1) dem Spannungsfeld zwischen Leistung und Effizienz; 2) dem Mangel an Trainingsdaten. Um die zweite Herausforderung zu bewältigen, verwenden einige neuere Methoden Prompts, um vortrainierte RGB-Verfolgungsmodelle feinzujustieren und auf effiziente Weise das Wissen aus aufwärtsgerichteten Aufgaben zu nutzen. Diese Methoden erforschen jedoch unzureichend modalen-unabhängige Muster und ignorieren die dynamische Zuverlässigkeit verschiedener Modalitäten in offenen Szenarien. Wir schlagen M3PT vor, eine innovative RGB-T-Prompt-Verfolgungsmethode, die mittlere Fusion und multimodale sowie multistufige visuelle Prompts nutzt, um diese Herausforderungen zu überwinden. Wir pionieren die Verwendung eines einstellbaren Meta-Frameworks für mittlere Fusion in der RGB-T-Verfolgung, das dem Tracker helfen kann, Leistung und Effizienz auszugleichen, um verschiedenen Anwendungsanforderungen gerecht zu werden. Darüber hinaus nutzen wir innerhalb dieses Meta-Frameworks mehrere flexible Prompt-Strategien, um das vortrainierte Modell sowohl zur umfassenden Erforschung von unimodalen Mustern als auch zur verbesserten Modellierung von fusionierten Modalitätsmerkmalen in diversen Szenarien mit unterschiedlichen Modalitätsprioritäten anzupassen. Dies ermöglicht es uns, das Potenzial des Prompt-Learnings in der RGB-T-Verfolgung zu nutzen. Bei der Auswertung anhand von sechs existierenden anspruchsvollen Benchmarks übertrifft unsere Methode die bisher besten Prompt-fine-tuning-Methoden und bleibt gleichzeitig hoch konkurrenzfähig gegenüber ausgezeichneten vollparametrischen Fine-tuning-Methoden, wobei unser Modell nur 0,34 Millionen feinjustierte Parameter verwendet.

Middle Fusion und Mehrstufige, Mehrformige Anweisungen für Robustes RGB-T-Tracking | Neueste Forschungsarbeiten | HyperAI