Zielbewusstes Tracking mit langfristiger Kontextaufmerksamkeit

Die meisten tiefen Tracker folgen noch immer den Leitlinien der siamesischen Paradigmen und verwenden eine Vorlage, die nur das Ziel ohne jegliche kontextuelle Information enthält. Dies erschwert es dem Tracker, große Erscheinungsänderungen, schnelle Zielbewegungen und Ablenkungen durch ähnliche Objekte zu bewältigen. Um das oben genannte Problem zu lindern, schlagen wir ein Modul für langfristige kontextuelle Aufmerksamkeit (LCA) vor, das umfangreiche Informationsfusion des Ziels und seines Kontexts aus langfristigen Bildern durchführen kann und gleichzeitig die Zielkorrelation berechnet, während es die Zielmerkmale verstärkt. Die vollständige kontextuelle Information umfasst sowohl die Position des Ziels als auch dessen Umgebungszustand. LCA nutzt den Zustand des Ziels aus dem vorherigen Bild, um Störungen durch ähnliche Objekte und komplexe Hintergründe auszuschließen, wodurch das Ziel präzise lokalisiert wird und der Tracker eine höhere Robustheit und Regressionsgenauigkeit erzielt. Durch Einbettung des LCA-Moduls in einen Transformer bauen wir einen leistungsfähigen Online-Tracker mit einem zielbewussten Backbone auf, den wir TATrack nennen. Darüber hinaus schlagen wir einen dynamischen Online-Aktualisierungsalgorithmus vor, der auf der Klassifikationszuverlässigkeit historischer Informationen basiert und keine zusätzlichen Rechenlasten verursacht. Unser Tracker erreicht Stand-des-Dingen-Leistungen auf mehreren Benchmarks: 71,1 % AUC (Area Under Curve), 89,3 % NP (Normalized Precision) und 73,0 % AO (Average Overlap) auf LaSOT, TrackingNet und GOT-10k. Der Code und die trainierten Modelle sind unter https://github.com/hekaijie123/TATrack verfügbar.