Lernen der Fusion asymmetrischer Merkmalskarten in Siamesischen Verfolgern

Kürzlich haben Siamese-basierte Verfolgungsmethoden vielversprechende Leistungen in der visuellen Verfolgung erzielt. Die meisten aktuellen Siamese-basierten Tracker verwenden typischerweise eine depth-wise cross-correlation (DW-XCorr), um aus zwei Featurekarten (Ziel und Suchregion) informationsreiche Mehrkanal-Korrelationsinformationen zu extrahieren. Dennoch weist DW-XCorr mehrere Einschränkungen im Kontext Siamese-basierter Verfolgung auf: Sie ist anfällig für Ablenkungen (distractors), verfügt über wenige aktivierte Kanäle und bietet eine schwache Differenzierung von Objekträndern. Zudem handelt es sich bei DW-XCorr um ein handgefertigtes, parameterfreies Modul, das nicht vollständig von der Offline-Lernung an großskaligen Datensätzen profitieren kann. Wir schlagen ein lernbares Modul namens asymmetrische Faltung (asymmetric convolution, ACM) vor, das im Offline-Lernprozess auf großskaligen Datensätzen darauf trainiert wird, semantische Korrelationsinformationen effizienter zu erfassen. Im Gegensatz zu DW-XCorr und deren Vorgänger (XCorr), die eine einzelne Featurekarte als Faltungskern betrachten, zerlegt unser ACM die Faltung auf einer verketteten Featurekarte in zwei mathematisch äquivalente Operationen. Dadurch entfällt die Notwendigkeit, dass die Featurekarten bei der Verkettung identische Abmessungen (Breite und Höhe) aufweisen müssen. Unser ACM kann zusätzliche vorherige Wissensinformationen – wie z. B. die Größe des Bounding-Boxes – nahtlos mit herkömmlichen visuellen Merkmalen kombinieren. Darüber hinaus lässt sich ACM problemlos in bestehende Siamese-Tracker integrieren, die auf DW-XCorr oder XCorr basieren. Um die Verallgemeinerungsfähigkeit zu demonstrieren, integrieren wir ACM in drei repräsentative Tracker: SiamFC, SiamRPN++ und SiamBAN. Unsere Experimente belegen die Vorteile des vorgeschlagenen ACM, das auf sechs verschiedenen Verfolgungsbenchmark-Datensätzen die bestehenden Methoden übertrifft. Auf dem LaSOT-Testset erreicht der auf ACM basierende Tracker eine signifikante Verbesserung von 5,8 % in Bezug auf die Erfolgsrate (AUC) im Vergleich zur Basislinie.