vor 2 Monaten

ODTrack: Online Lernen dichter zeitlicher Tokens für visuelle Verfolgung

Yaozong Zheng; Bineng Zhong; Qihua Liang; Zhiyi Mo; Shengping Zhang; Xianxian Li

Abstract

Die online kontextuelle Schlussfolgerung und Assoziation über aufeinanderfolgende Videobilder sind entscheidend für die Wahrnehmung von Instanzen im visuellen Tracking. Die meisten aktuellen hochleistungsfähigen Tracker stützen sich jedoch weiterhin auf dünn besetzte zeitliche Beziehungen zwischen Referenz- und Suchbildern im Offline-Modus. Folglich können sie nur unabhängig innerhalb jedes Bildpaares interagieren und bilden begrenzte zeitliche Korrelationen. Um das oben beschriebene Problem zu lindern, schlagen wir einen einfachen, flexiblen und effektiven videobasierten Tracking-Pipeline vor, den wir \textbf{ODTrack} nennen. ODTrack assoziert die kontextuellen Beziehungen der Videobilder dicht im Online-Token-Propagation-Verfahren. ODTrack nimmt Videobilder beliebiger Länge entgegen, um die räumlich-zeitlichen Trajektorieberziehungen einer Instanz zu erfassen, und komprimiert die Diskriminierungseigenschaften (Ortungsinformationen) eines Ziels in eine Token-Sequenz, um eine Bild-zu-Bild-Assoziation zu erreichen. Diese neue Lösung bietet folgende Vorteile: 1) die gereinigten Token-Sequenzen können als Anhaltspunkte für die Inferenz im nächsten Videobild dienen, wodurch vergangene Informationen zur Steuerung zukünftiger Inferenzen genutzt werden; 2) durch die iterative Propagation der Token-Sequenzen werden komplexe Online-Aktualisierungsstrategien effektiv vermieden, sodass eine effizientere Modellrepräsentation und Berechnung erreicht werden kann. ODTrack erzielt eine neue \textit{SOTA}-Leistung auf sieben Benchmarks und läuft dabei in Echtzeitspeed. Der Quellcode und die Modelle sind unter \url{https://github.com/GXNU-ZhongLab/ODTrack} verfügbar.