Zieltransformierte Regression für präzises Tracking

Genauige Verfolgung bleibt aufgrund von Erscheinungsveränderungen, Veränderungen der Pose und Ansicht sowie geometrischen Verzerrungen des Ziels in Videos weiterhin eine herausfordernde Aufgabe. Kürzlich vorgestellte anchor-free-Verfolger bieten eine effiziente Regressionsmechanik, scheitern jedoch bei der präzisen Schätzung von Bounding-Boxen. Um diese Probleme anzugehen, wird in diesem Artikel eine Transformer-ähnliche Regressionszweig-Struktur, die als Target Transformed Regression (TREG) bezeichnet wird, neu konzipiert, um eine präzise anchor-free-Verfolgung zu ermöglichen. Der Kern von TREG liegt in der Modellierung der paarweisen Beziehungen zwischen Elementen im Zielvorlage und dem Suchbereich sowie der Nutzung der resultierenden, durch das Ziel verbesserten visuellen Darstellung zur präzisen Regressionsberechnung der Bounding-Box. Diese zielkontextualisierte Darstellung ermöglicht es, relevante Zielinformationen zu verstärken und somit die genaue Lokalisierung der Boxgrenzen zu unterstützen. Zudem kann sie Verformungen des Objekts teilweise bewältigen, dank ihres lokalen und dichten Matching-Mechanismus. Zusätzlich wird ein einfaches, online anpassbares Vorlagenaktualisierungsverfahren vorgeschlagen, das zuverlässige Vorlagen auswählt und somit die Robustheit gegenüber Erscheinungsänderungen und geometrischen Verzerrungen im Laufe der Zeit erhöht. Experimentelle Ergebnisse auf gängigen Benchmark-Datenbanken für visuelle Verfolgung – darunter VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT und TrackingNet – zeigen, dass TREG die derzeit beste Leistung erzielt, mit einer Erfolgsrate von 0,640 auf LaSOT, während es mit etwa 30 FPS läuft. Der Quellcode und die Modelle werden unter https://github.com/MCG-NJU/TREG zur Verfügung gestellt.