Zu einer besseren Übereinstimmung in visuellen Objektverfolgern auf Basis von Siamese-Netzwerken

Kürzlich haben siamesische Netzwerkbasierte Verfolgungssysteme aufgrund ihrer schnellen Verfolgungsgeschwindigkeit und hervorragenden Leistung großes Interesse gefunden. Trotz des großen Erfolgs leidet dieses Verfolgungsframework jedoch noch an mehreren Einschränkungen. Erstens kann es große Objektdrehungen nicht angemessen behandeln. Zweitens wird die Verfolgung leicht abgelenkt, wenn der Hintergrund auffällige Objekte enthält. In dieser Arbeit schlagen wir zwei einfache, aber effektive Mechanismen vor: Winkelschätzung und räumliche Maskierung, um diese Probleme zu lösen. Das Ziel ist es, repräsentativere Merkmale zu extrahieren, sodass eine bessere Übereinstimmung zwischen demselben Objekt in verschiedenen Bildern erreicht werden kann. Der resultierende Tracker, Siam-BM genannt, verbessert die Verfolgungsleistung nicht nur erheblich, sondern behält auch die Echtzeitfähigkeit bei. Die Auswertungen am VOT2017-Datensatz zeigen, dass Siam-BM einen EAO von 0,335 erreicht, was es zum bislang besten Echtzeit-Tracker macht.