HyperAIHyperAI
vor 2 Monaten

ARTrackV2: Anregung eines autoregressiven Trackers, wohin er schauen und wie er beschreiben soll

Yifan Bai; Zeyang Zhao; Yihong Gong; Xing Wei
ARTrackV2: Anregung eines autoregressiven Trackers, wohin er schauen und wie er beschreiben soll
Abstract

Wir stellen ARTrackV2 vor, eine Methode, die zwei entscheidende Aspekte des Trackings integriert: die Bestimmung, wohin geschaut werden soll (Lokalisierung), und die Beschreibung des Zielobjekts über Videosequenzen hinweg (Erscheinungsanalyse). Aufbauend auf der Grundlage seines Vorgängers erweitert ARTrackV2 dieses Konzept durch die Einführung eines einheitlichen generativen Frameworks, um die Trajektorie des Objekts zu „extrahieren“ und sein Erscheinungsbild in einem autoregressiven Verfahren zu „wiedergeben“. Dieser Ansatz fördert eine zeitkontinuierliche Methodik, die die gemeinsame Entwicklung von Bewegung und visuellen Merkmalen unter Berücksichtigung früherer Schätzungen modelliert. Darüber hinaus zeichnet sich ARTrackV2 durch seine Effizienz und Einfachheit aus, indem es den weniger effizienten intra-frame-autoregressiven Ansatz und manuell justierte Parameter für Erscheinungsaktualisierungen entbehrlich macht. Trotz seiner Einfachheit erreicht ARTrackV2 Spitzenleistungen auf etablierten Benchmark-Datensätzen und zeigt gleichzeitig bemerkenswerte Effizienzverbesserungen. Insbesondere erreicht ARTrackV2 einen AO-Wert von 79,5 % auf GOT-10k und einen AUC-Wert von 86,1 % auf TrackingNet, während es 3,6-mal schneller als ARTrack ist. Der Code wird veröffentlicht werden.