Wahrscheinlichkeitsbasierte Regression für visuelles Tracking

Visual Tracking ist grundsätzlich das Problem der Regression des Zustands des Ziels in jedem Videoframe. Obwohl erhebliche Fortschritte erzielt wurden, sind Tracking-Verfahren weiterhin anfällig für Ausfälle und Ungenauigkeiten. Es ist daher entscheidend, die Unsicherheit bei der Schätzung des Ziels zu repräsentieren. Obwohl aktuelle etablierte Ansätze auf der Schätzung eines zustandsabhängigen Vertrauenswerts basieren, verfügt dieser Wert über keine klare probabilistische Interpretation, was seine Anwendung erschwert.In dieser Arbeit schlagen wir daher eine probabilistische Regressionsformulierung vor und wenden sie auf das Tracking an. Unser Netzwerk schätzt die bedingte Wahrscheinlichkeitsdichte des Zielszustands basierend auf einem Eingabebild. Entscheidend ist, dass unsere Formulierung in der Lage ist, Label-Rauschen infolge ungenauer Annotationen sowie Unsicherheiten im Aufgabenkontext zu modellieren. Das Regressionsnetzwerk wird durch Minimierung der Kullback-Leibler-Divergenz trainiert. Bei der Anwendung im Tracking ermöglicht unsere Formulierung nicht nur eine probabilistische Darstellung der Ausgabe, sondern verbessert auch signifikant die Leistung. Unser Tracker erreicht eine neue State-of-the-Art-Leistung auf sechs Datensätzen, wobei er eine AUC von 59,8 % auf LaSOT und eine Success-Rate von 75,8 % auf TrackingNet erzielt. Der Quellcode und die Modelle sind unter https://github.com/visionml/pytracking verfügbar.