HyperAIHyperAI
vor 2 Monaten

Tiefer und breiter Siamese Netzwerke für die Echtzeit-Visuelle Verfolgung

Zhipeng Zhang; Houwen Peng
Tiefer und breiter Siamese Netzwerke für die Echtzeit-Visuelle Verfolgung
Abstract

Siamese-Netzwerke haben aufgrund ihrer ausgewogenen Genauigkeit und Geschwindigkeit große Aufmerksamkeit im Bereich der visuellen Verfolgung gefunden. Allerdings sind die Backbone-Netzwerke, die in Siamese-Verfolgern verwendet werden, relativ flach, wie zum Beispiel AlexNet [18], was die volle Nutzung der Möglichkeiten moderner tiefer neuronaler Netzwerke nicht ermöglicht. In dieser Arbeit untersuchen wir, wie tiefere und breitere Faltungsneuronale Netzwerke zur Verbesserung der Robustheit und Genauigkeit der Verfolgung eingesetzt werden können. Wir beobachten, dass die direkte Ersetzung von Backbones durch bestehende leistungsfähige Architekturen, wie ResNet [14] und Inception [33], keine Verbesserungen bringt. Die Hauptgründe dafür sind: 1) Große Erhöhungen des Rezeptivfelds von Neuronen führen zu einer verringerten Merkmalsdiskriminierbarkeit und Lokalisierungsgenauigkeit; und 2) das Padding des Netzwerks für Faltungen verursacht eine positionale Verzerrung im Lernen. Um diese Probleme zu lösen, schlagen wir neue Residualmodule vor, um den negativen Einfluss des Paddings zu beseitigen, und entwerfen ferner neue Architekturen unter Verwendung dieser Module mit kontrolliertem Rezeptivfeldgrößen- und Netzstrides. Die entwickelten Architekturen sind leichtgewichtig und gewährleisten eine Echtzeit-Verfolgungsgeschwindigkeit bei Anwendung auf SiamFC [2] und SiamRPN [20]. Experimente zeigen, dass allein durch die vorgeschlagenen Netzarchitekturen unsere SiamFC+ und SiamRPN+ bis zu 9,8%/5,7% (AUC), 23,3%/8,8% (EAO) und 24,4%/25,0% (EAO) relative Verbesserungen gegenüber den Originalversionen [2, 20] auf den Datensätzen OTB-15, VOT-16 und VOT-17 erzielen.Anmerkungen:- "Backbone" ist ein gängiger Begriff in der KI-Forschung und wird oft so gelassen.- "Receptive field" wird als "Rezeptivfeld" übersetzt.- "Padding" bleibt unverändert.- "Network stride" wird als "Netzstride" übersetzt.- AUC steht für Area Under the Curve.- EAO steht für Expected Average Overlap.

Tiefer und breiter Siamese Netzwerke für die Echtzeit-Visuelle Verfolgung | Neueste Forschungsarbeiten | HyperAI