Kontextbasierte Tiefenmerkmalskompression für hochgeschwindigkeitsvisuelles Tracking

Wir schlagen einen neuen kontextsensitiven Korrelationsfilter-basierten Tracking-Rahmen vor, um sowohl eine hohe Rechengeschwindigkeit als auch eine Spitzenleistung unter Echtzeit-Trackern zu erreichen. Der Hauptbeitrag zur hohen Rechengeschwindigkeit liegt in dem vorgeschlagenen tiefen Merkmalskompression, die durch ein kontextsensitives Schema mit mehreren Experten-Autoencodern erreicht wird; in unserem Rahmen bezieht sich der Kontext auf die grobe Kategorie des Tracking-Ziels gemäß Erscheinungsmustern. Im Vortrainingsphase wird für jede Kategorie ein Experte-Autoencoder trainiert. Im Tracking-Phase wird der beste Experte-Autoencoder für das gegebene Ziel ausgewählt und nur dieser Autoencoder wird verwendet. Um eine hohe Tracking-Leistung mit der komprimierten Merkmalskarte zu erzielen, führen wir externe Entstörungsprozesse und einen neuen Orthogonalitätsverlustterm für das Vortraining und Feinjustieren der Experten-Autoencoders ein. Wir validieren den vorgeschlagenen kontextsensitiven Rahmen durch eine Reihe von Experimenten, bei denen unsere Methode eine vergleichbare Leistung wie die besten Trackers, die nicht in Echtzeit laufen können, erzielt, während sie gleichzeitig mit einer erheblich schnelleren Geschwindigkeit von über 100 fps läuft.