HyperAIHyperAI
vor 2 Monaten

Transformer RGBT-Verfolgung mit räumlich-zeitlichen multimodalen Token

Dengdi Sun; Yajie Pan; Andong Lu; Chenglong Li; Bin Luo
Transformer RGBT-Verfolgung mit räumlich-zeitlichen multimodalen Token
Abstract

Viele Forschungen im Bereich des RGBT-Trackings konzentrieren sich hauptsächlich auf die Modalfusionsdesigns und vernachlässigen dabei die effektive Behandlung von Änderungen im Erscheinungsbild des Ziels. Obwohl einige Ansätze historische Frames eingeführt oder initiale Vorlagen durch Fusions- und Ersetzungsverfahren integriert haben, um zeitliche Informationen zu berücksichtigen, besteht das Risiko, dass dies das ursprüngliche Erscheinungsbild des Ziels stört und Fehler im Laufe der Zeit anhäufen. Um diese Einschränkungen zu mildern, schlagen wir einen neuen Transformer-basierten RGBT-Tracking-Ansatz vor, der räumlich-zeitliche Multimodal-Tokens aus statischen Multimodal-Vorlagen und multimodalen Suchbereichen in einem Transformer mischt, um Änderungen im Erscheinungsbild des Ziels zu verarbeiten und ein robustes RGBT-Tracking sicherzustellen. Wir führen unabhängige dynamische Vorlagetokens ein, die mit dem Suchbereich interagieren und zeitliche Informationen einbetten, um Erscheinungsänderungen zu bewältigen. Gleichzeitig behalten wir die Beteiligung der initialen statischen Vorlagetokens bei dem gemeinsamen Merkmalsextraktionsprozess bei, um die Erhaltung der ursprünglichen, verlässlichen Zielinformationen sicherzustellen, die durch traditionelle zeitliche Aktualisierungen von Abweichungen abgehalten werden können. Zudem nutzen wir Aufmerksamkeitsmechanismen (attention mechanisms), um die Zielmerkmale der multimodalen Vorlagetokens durch zusätzliche modale Hinweise zu verbessern und ermöglichen es den multimodalen Suchbereichtokens, über Aufmerksamkeitsmechanismen mit den multimodalen dynamischen Vorlagetokens zu interagieren. Dies erleichtert die Übermittlung von multimodal erweiterten Informationen über Zieländerungen. Unser Modul wird in das Transformer-Kernnetzwerk integriert und erbt gemeinsame Merkmalsextraktion, Suchvorlagenabgleich und intermodale Interaktion. Ausführliche Experimente auf drei RGBT-Benchmarks-Datensätzen zeigen, dass der vorgeschlagene Ansatz eine wettbewerbsfähige Leistung gegenüber anderen state-of-the-art Tracking-Algorithmen aufrechterhält und gleichzeitig mit einer Geschwindigkeit von 39,1 FPS läuft.

Transformer RGBT-Verfolgung mit räumlich-zeitlichen multimodalen Token | Neueste Forschungsarbeiten | HyperAI