Lernende Zielkandidaten-Zuordnung zur Verfolgung dessen, was nicht verfolgt werden soll

Die Anwesenheit von Objekten, die dem verfolgten Ziel verwirrenderweise ähnlich sind, stellt eine grundlegende Herausforderung im appearancesbasierten visuellen Verfolgen dar. Solche Störobjekte werden leicht fälschlicherweise als das Ziel klassifiziert, was letztlich zu einem Ausfall der Verfolgung führt. Während die meisten Methoden versuchen, Störungen durch leistungsfähigere Appearance-Modelle zu unterdrücken, verfolgen wir einen alternativen Ansatz.Wir schlagen vor, Störobjekte ebenfalls zu verfolgen, um die Verfolgung des eigentlichen Ziels fortzusetzen. Dazu führen wir ein gelerntes Assoziationsnetzwerk ein, das es uns ermöglicht, die Identitäten aller Zielkandidaten von Frame zu Frame zu propagieren. Um das Problem fehlender Ground-Truth-Zuordnungen zwischen Störobjekten im visuellen Verfolgen anzugehen, schlagen wir eine Trainingsstrategie vor, die partielle Annotationen mit Selbstüberwachung kombiniert. Wir führen eine umfassende experimentelle Validierung und Analyse unseres Ansatzes auf mehreren anspruchsvollen Datensätzen durch. Unser Tracker erreicht eine neue State-of-the-Art-Leistung auf sechs Benchmarks, wobei er eine AUC-Score von 67,1 % auf LaSOT erzielt und eine absolute Verbesserung von +5,8 % auf dem OxUvA Long-Term-Datensatz erreicht.