Hohe Leistungsfähigkeit visueller Verfolgung mit Siamese Region Proposal Network

Visual Object Tracking hat in den letzten Jahren ein zentrales Thema darstellen und zahlreiche auf Deep Learning basierende Tracker konnten auf mehreren Benchmarks führende Leistung erzielen. Allerdings erreichen die meisten dieser Tracker kaum eine Spitzenleistung bei Echtzeitgeschwindigkeit. In diesem Paper stellen wir das Siamese Region Proposal Network (Siamese-RPN) vor, das end-to-end offline mit großskaligen Bildpaaren trainiert wird. Konkret besteht es aus einem Siamese-Unter-Netzwerk zur Merkmalsextraktion und einem Region Proposal-Unter-Netzwerk, das sowohl eine Klassifikations- als auch eine Regressionszweig umfasst. Im Inferenzphase wird der vorgeschlagene Ansatz als lokale One-Shot-Detektion formuliert. Dabei können wir den Template-Teil des Siamese-Unter-Netzwerks vorab berechnen und die Korrelations-Schichten als triviale Faltungs-Schichten formulieren, um eine Online-Verfolgung durchzuführen. Durch die Vorschlagsverfeinerung können traditionelle Multi-Scale-Tests und Online-Finetuning entfallen. Das Siamese-RPN läuft mit 160 FPS und erreicht dabei führende Ergebnisse in den Echtzeit-Challenges VOT2015, VOT2016 und VOT2017.