Modellvorhersage für die Verfolgung transformieren

Optimierungsbasierte Verfolgungsmethoden haben durch die Integration eines Zielmodell-Vorhersagemoduls großen Erfolg gefeiert, das effektive globale Schlussfolgerungen zieht, indem es eine Zielfunktion minimiert. Obwohl dieser induktive Bias wertvolles Fachwissen integriert, begrenzt er die Ausdrucksfähigkeit des Verfolgungsnetzwerks. In dieser Arbeit schlagen wir daher eine Tracker-Architektur vor, die ein auf Transformatoren basierendes Modell-Vorhersagemodul verwendet. Transformatoren erfassen globale Beziehungen mit geringem induktiven Bias, was es ermöglicht, die Vorhersage leistungsfähigerer Zielmodelle zu lernen. Wir erweitern den Modell-Vorhersager weiterhin, um ein zweites Gewichtsset abzuschätzen, das für eine genaue Bounding-Box-Regression angewendet wird. Der resultierende Tracker stützt sich auf Trainings- und Testbildinformationen, um alle Gewichte transduktiv vorherzusagen. Wir trainieren den vorgeschlagenen Tracker von Anfang bis Ende und überprüfen seine Leistung durch umfassende Experimente auf mehreren Verfolgungsdatensätzen. Unser Tracker legt einen neuen Stand der Technik bei drei Benchmarks fest und erreicht einen AUC-Wert von 68,5 % im anspruchsvollen LaSOT-Datensatz.