Lernen der diskriminativen Modellvorhersage für die Verfolgung

Die aktuelle Bemühung um end-to-end trainierbare Computer Vision Systeme stellt für die Aufgabe der visuellen Verfolgung erhebliche Herausforderungen. Im Gegensatz zu den meisten anderen Visionproblemen erfordert die Verfolgung das Online-Lernen eines robusten, zielobjekt-spezifischen Erscheinungsmodells während der Inferenzphase. Um end-to-end trainierbar zu sein, muss das Online-Lernen des Zielobjektmodells in die Tracking-Architektur selbst eingebettet werden. Aufgrund dieser Herausforderungen prognostiziert das populäre Siamese-Paradigma einfach ein Zielobjekt-Feature-Vorlage und ignoriert dabei während der Inferenz die Hintergrund-Erscheinungsinformationen. Folglich besitzt das vorhergesagte Modell eine begrenzte Unterscheidbarkeit zwischen Zielobjekt und Hintergrund.Wir entwickeln eine end-to-end Tracking-Architektur, die in der Lage ist, sowohl Zielobjekt- als auch Hintergrund-Erscheinungsinformationen vollständig für die Vorhersage des Zielobjektmodells auszunutzen. Unsere Architektur wird durch einen diskriminativen Lernverlust abgeleitet, indem wir einen speziellen Optimierungsprozess entwerfen, der in nur wenigen Iterationen ein leistungsfähiges Modell vorhersagen kann. Darüber hinaus ist unser Ansatz in der Lage, wesentliche Aspekte des diskriminativen Lernverlustes selbst zu lernen. Der vorgeschlagene Tracker setzt einen neuen Stand der Technik auf sechs Tracking-Benchmarks und erreicht einen EAO-Wert von 0,440 auf VOT2018, wobei er mit über 40 FPS läuft. Der Code und die Modelle sind unter https://github.com/visionml/pytracking verfügbar.