MambaVT: Modellierung des räumlich-zeitlichen Kontextes für robustes RGB-T-Tracking

Bestehende RGB-T-Verfolgungsalgorithmen haben durch die Nutzung der globalen Interaktionsfähigkeit und umfangreicher vortrainierter Modelle der Transformer-Architektur bemerkenswerte Fortschritte gemacht. Dennoch basieren diese Methoden hauptsächlich auf dem Erscheinungsmuster von Bildpaaren und stoßen auf Herausforderungen infolge der inhärenten hoch quadratischen Komplexität des Aufmerksamheitsmechanismus, was zu einer eingeschränkten Nutzung zeitlicher Informationen führt. Inspiriert von dem kürzlich entwickelten Zustandsraummodell Mamba, das für seine beeindruckenden Fähigkeiten zur Modellierung langer Sequenzen und seine lineare Rechenaufwandskomplexität bekannt ist, schlägt diese Arbeit ein rein Mamba-basiertes Framework (MambaVT) vor, um die räumlich-zeitliche Kontextmodellierung vollständig auszuschöpfen und eine robuste sichtbare-Thermische Verfolgung zu ermöglichen. Insbesondere entwickeln wir ein Komponente zur langreichweitigen Querbildintegration, um sich global an Änderungen im Erscheinungsbild des Ziels anzupassen, und führen kurzfristige historische Trajektorienprompts ein, um nachfolgende Zielzustände auf Basis lokaler zeitlicher Standorthinweise vorherzusagen. Umfangreiche Experimente zeigen das erhebliche Potenzial des visuellen Mambas für RGB-T-Verfolgung, wobei MambaVT den aktuellen Stand der Technik in vier Hauptbenchmarks erreicht und dabei geringere Rechenaufwände verlangt. Ziel dieser Arbeit ist es, als einfache aber starke Baseline zu dienen und zukünftige Forschungen in diesem Bereich anzuregen. Der Code und die vortrainierten Modelle werden verfügbar gemacht.