HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefer und breiter Siamese Netzwerke für die Echtzeit-Visuelle Verfolgung

Zhipeng Zhang; Houwen Peng

Zusammenfassung

Siamese-Netzwerke haben aufgrund ihrer ausgewogenen Genauigkeit und Geschwindigkeit große Aufmerksamkeit im Bereich der visuellen Verfolgung gefunden. Allerdings sind die Backbone-Netzwerke, die in Siamese-Verfolgern verwendet werden, relativ flach, wie zum Beispiel AlexNet [18], was die volle Nutzung der Möglichkeiten moderner tiefer neuronaler Netzwerke nicht ermöglicht. In dieser Arbeit untersuchen wir, wie tiefere und breitere Faltungsneuronale Netzwerke zur Verbesserung der Robustheit und Genauigkeit der Verfolgung eingesetzt werden können. Wir beobachten, dass die direkte Ersetzung von Backbones durch bestehende leistungsfähige Architekturen, wie ResNet [14] und Inception [33], keine Verbesserungen bringt. Die Hauptgründe dafür sind: 1) Große Erhöhungen des Rezeptivfelds von Neuronen führen zu einer verringerten Merkmalsdiskriminierbarkeit und Lokalisierungsgenauigkeit; und 2) das Padding des Netzwerks für Faltungen verursacht eine positionale Verzerrung im Lernen. Um diese Probleme zu lösen, schlagen wir neue Residualmodule vor, um den negativen Einfluss des Paddings zu beseitigen, und entwerfen ferner neue Architekturen unter Verwendung dieser Module mit kontrolliertem Rezeptivfeldgrößen- und Netzstrides. Die entwickelten Architekturen sind leichtgewichtig und gewährleisten eine Echtzeit-Verfolgungsgeschwindigkeit bei Anwendung auf SiamFC [2] und SiamRPN [20]. Experimente zeigen, dass allein durch die vorgeschlagenen Netzarchitekturen unsere SiamFC+ und SiamRPN+ bis zu 9,8%/5,7% (AUC), 23,3%/8,8% (EAO) und 24,4%/25,0% (EAO) relative Verbesserungen gegenüber den Originalversionen [2, 20] auf den Datensätzen OTB-15, VOT-16 und VOT-17 erzielen.Anmerkungen:- "Backbone" ist ein gängiger Begriff in der KI-Forschung und wird oft so gelassen.- "Receptive field" wird als "Rezeptivfeld" übersetzt.- "Padding" bleibt unverändert.- "Network stride" wird als "Netzstride" übersetzt.- AUC steht für Area Under the Curve.- EAO steht für Expected Average Overlap.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp