HyperAIHyperAI
vor 13 Tagen

SiamFC++: Hin zu robuster und genauer visueller Verfolgung mit Ziel-Schätzung-Leitlinien

Yinda Xu, Zeyu Wang, Zuoxin Li, Ye Yuan, Gang Yu
SiamFC++: Hin zu robuster und genauer visueller Verfolgung mit Ziel-Schätzung-Leitlinien
Abstract

Das visuelle Verfolgungsproblem erfordert gleichzeitig eine effiziente, robuste Klassifikation und eine genaue Schätzung des Zielzustands für ein gegebenes Objekt. Bisherige Ansätze haben verschiedene Methoden zur Schätzung des Zielzustands vorgeschlagen, doch nur wenige berücksichtigten die spezifischen Eigenschaften des visuellen Verfolgungsproblems selbst. Nach einer gründlichen Analyse stellen wir eine Reihe praktischer Leitlinien für die Schätzung des Zielzustands vor, die für die Entwicklung hochleistungsfähiger, generischer Objektverfolger geeignet sind. Unter Anwendung dieser Leitlinien entwerfen wir unseren Fully Convolutional Siamese Tracker++ (SiamFC++), indem wir sowohl eine Klassifikations- als auch eine Zielzustandsschätzungszweigstruktur (G1) einführen, eine klassifikationsbezogene Bewertung ohne Mehrdeutigkeit (G2), eine Verfolgung ohne Vorwissen (G3) sowie eine Qualitätsbewertung der Schätzung (G4) integrieren. Umfassende Analysen und Ablationsstudien belegen die Wirksamkeit unserer vorgeschlagenen Leitlinien. Ohne zusätzliche, aufwändige Komponenten erreicht unser SiamFC++-Tracker Spitzenleistung auf fünf anspruchsvollen Benchmarks (OTB2015, VOT2018, LaSOT, GOT-10k, TrackingNet), was sowohl die Verfolgungs- als auch die Verallgemeinerungsfähigkeit des Trakkers unter Beweis stellt. Insbesondere erreicht SiamFC++ auf dem großskaligen TrackingNet-Datensatz einen bisher nicht erreichten AUC-Wert von 75,4 bei einer Geschwindigkeit von über 90 FPS – weit über der Anforderung an Echtzeitverarbeitung. Der Quellcode und die Modelle sind unter folgender Adresse verfügbar: https://github.com/MegviiDetection/video_analyst.