ATOM: Genauige Ortung durch Überlappungsmaximierung

In den letzten Jahren wurden erstaunliche Fortschritte bei der Robustheit von visuellen Verfolgungssystemen erzielt, während die Verbesserungen der Verfolgungsgenauigkeit begrenzt blieben. Da der Fokus auf die Entwicklung leistungsfähiger Klassifizierer gelegt wurde, wurde das Problem der genauen Zielzustandschätzung weitgehend vernachlässigt. Tatsächlich greifen die meisten Tracker auf eine einfache mehrskalige Suche zurück, um das Zielfeld zu schätzen. Wir argumentieren, dass dieser Ansatz grundsätzlich begrenzt ist, da die Zielzustandschätzung eine komplexe Aufgabe darstellt, die hochwertiges Wissen über das Objekt erfordert.Um dieses Problem anzugehen, schlagen wir eine neuartige Tracking-Architektur vor, die aus spezialisierten Komponenten zur Zielzustandschätzung und Klassifizierung besteht. Hochwertiges Wissen wird durch umfangreiches Offline-Lernen in die Zielzustandschätzung integriert. Unsere Komponente zur Zielzustandschätzung wird trainiert, um den Überlapp zwischen dem Zielobjekt und einem geschätzten Zielfeld vorherzusagen. Durch sorgfältige Integration objektspezifischer Informationen erreicht unser Ansatz eine bisher unerreichte Genauigkeit des Zielfelds. Des Weiteren führen wir eine Klassifikationskomponente ein, die online trainiert wird, um hohe Diskriminativkraft in Anwesenheit von Störelementen sicherzustellen. Unser endgültiger Tracking-Rahmen setzt einen neuen Stand der Technik in fünf anspruchsvollen Benchmarks. Im neuen großen TrackingNet-Datensatz erreicht unser Tracker ATOM einen relativen Vorteil von 15 % im Vergleich zum bisher besten Ansatz und läuft dabei mit über 30 FPS (Frames pro Sekunde). Der Quellcode und die Modelle sind unter https://github.com/visionml/pytracking verfügbar.