HyperAIHyperAI
vor 11 Tagen

Generalisierte Relationenmodellierung für Transformer-Tracking

Shenyuan Gao, Chunluan Zhou, Jun Zhang
Generalisierte Relationenmodellierung für Transformer-Tracking
Abstract

Im Vergleich zu früheren zwei-Stream-Verfolgungspipelines hat die jüngste ein-Stream-Verfolgungsschaltung, die eine frühere Interaktion zwischen Vorlage und Suchregion ermöglicht, eine bemerkenswerte Leistungssteigerung erzielt. Allerdings lassen bestehende ein-Stream-Verfolger die Vorlage durchgängig mit allen Teilen innerhalb der Suchregion in allen Encoder-Schichten interagieren. Dies kann potenziell zu einer Verwechslung zwischen Ziel und Hintergrund führen, wenn die extrahierten Merkmalsdarstellungen nicht ausreichend diskriminativ sind. Um dieses Problem zu mildern, schlagen wir eine verallgemeinerte Relationmodellierungsmethode basierend auf adaptiver Token-Teilung vor. Die vorgeschlagene Methode stellt eine verallgemeinerte Formulierung der auf Aufmerksamkeit basierenden Relationmodellierung für Transformer-Verfolgung dar und vereint die Vorteile der vorherigen zwei-Stream- und ein-Stream-Pipelines, während sie gleichzeitig eine flexiblere Relationmodellierung ermöglicht, indem geeignete Such-Tokens ausgewählt werden, um mit den Vorlage-Tokens zu interagieren. Eine Aufmerksamkeitsmasken-Strategie und die Gumbel-Softmax-Technik werden eingeführt, um die parallele Berechnung und das end-to-end-Lernen des Token-Teilungsmoduls zu unterstützen. Ausführliche Experimente zeigen, dass unsere Methode sowohl gegenüber den zwei-Stream- als auch den ein-Stream-Pipelines überlegen ist und auf sechs anspruchsvollen Benchmarks eine state-of-the-art-Leistung bei Echtzeit-Geschwindigkeit erzielt.

Generalisierte Relationenmodellierung für Transformer-Tracking | Neueste Forschungsarbeiten | HyperAI