HyperAIHyperAI
vor 2 Monaten

SiamVGG: Visuelle Verfolgung mit tieferen Siamesen-Netzwerken

Yuhong Li; Xiaofan Zhang; Deming Chen
SiamVGG: Visuelle Verfolgung mit tieferen Siamesen-Netzwerken
Abstract

In letzter Zeit haben wir eine rasante Entwicklung von Lösungen für visuelle Objektverfolgung auf Basis von tiefen neuronalen Netzen (Deep Neural Networks, DNNs) beobachtet. Einige Verfolgungsverfahren kombinieren DNN-basierte Ansätze mit diskriminativen Korrelationsfiltern (Discriminative Correlation Filters, DCFs), um semantische Merkmale zu extrahieren und den aktuellen Stand der Technik in Bezug auf die Verfolgungsgenauigkeit zu erreichen. Allerdings sind diese Lösungen sehr rechenintensiv, was lange Verarbeitungszeiten erfordert und somit eine sichere Echtzeitperformance nicht gewährleistet. Um sowohl hohe Genauigkeit als auch verlässliche Echtzeitperformance zu erzielen, schlagen wir einen neuen Tracker vor, den wir SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG} nennen. Dieser kombiniert ein konvolutionsbasiertes neuronales Netz (Convolutional Neural Network, CNN) als Backbone mit einem Kreuzkorrelationsoperator und nutzt die Merkmale aus Beispielbildern zur präziseren Objektverfolgung. Die Architektur von SiamVGG wurde anhand des VGG-16-Modells angepasst, wobei die Parameter sowohl für die Beispielbilder als auch für die gewünschten Eingabebilder des Videos geteilt werden. Wir demonstrieren den vorgeschlagenen SiamVGG anhand der Datensätze OTB-2013/50/100 und VOT 2015/2016/2017, wobei er den aktuellen Stand der Technik in Bezug auf die Verfolgungsgenauigkeit erreicht und gleichzeitig eine ordentliche Echtzeitperformance von 50 FPS auf einer GTX 1080Ti bietet. Unser Design kann im Vergleich zu ECO und C-COT im VOT2017-Challenge einen 2% höheren erwarteten durchschnittlichen Überlapp (Expected Average Overlap, EAO) erreichen.

SiamVGG: Visuelle Verfolgung mit tieferen Siamesen-Netzwerken | Neueste Forschungsarbeiten | HyperAI