ProContEXT: Exploring Progressive Context Transformer for Tracking ProContEXT: Die Erforschung des fortschreitenden Kontext-Transformers für die Verfolgung

Bestehende Verfahren zur visuellen Objektverfolgung (VOT) verwenden lediglich das Zielgebiet im ersten Frame als Vorlage. Dies führt unvermeidlich zu Fehlschlägen bei schnell veränderlichen und dichten Szenen, da sie Änderungen des Objektaussehens zwischen den Frames nicht berücksichtigen können. Um dieses Problem zu lösen, haben wir den Tracking-Framework mit dem Progressiven Kontextcodierenden Transformer Tracker (ProContEXT) überarbeitet, der räumliche und zeitliche Kontexte kohärent nutzt, um Bewegungstrajektorien von Objekten vorherzusagen. Insbesondere verwendet ProContEXT ein kontextsensitives Selbst-Aufmerksamkeitsmodul, um den räumlichen und zeitlichen Kontext zu kodieren und die mehrskaligen statischen und dynamischen Vorlagen kontinuierlich zu verfeinern und zu aktualisieren, um eine präzise Verfolgung schrittweise durchzuführen. Es untersucht die Komplementarität zwischen räumlichem und zeitlichem Kontext, was einen neuen Ansatz für die Mehrkontext-Modellierung bei transformerbasierten Trackern eröffnet. Darüber hinaus hat ProContEXT die Token-Pruning-Technik überarbeitet, um die rechnerische Komplexität zu reduzieren. Ausführliche Experimente auf gängigen Benchmark-Datensätzen wie GOT-10k und TrackingNet zeigen, dass der vorgeschlagene ProContEXT den Stand der Technik in Bezug auf Leistung erreicht.