Nachverfolgung ohne Schnörkel und Tüfteleien

Das Problem der Verfolgung mehrerer Objekte in einer Videosequenz stellt mehrere herausfordernde Aufgaben. Bei der Verfolgung durch Erkennung (Tracking-by-Detection) umfasst dies die Wiederidentifikation von Objekten, die Bewegungsvorhersage und das Umgang mit Verdeckungen. Wir präsentieren einen Tracker (ohne zusätzliche Komplexitäten), der die Verfolgung ohne spezielle Ausrichtung auf eine dieser Aufgaben durchführt, insbesondere führen wir keine Trainings- oder Optimierungsschritte auf Trackingdaten durch. Dazu nutzen wir die Bounding-Box-Regression eines Objekterkenners, um die Position eines Objekts im nächsten Frame vorherzusagen, wodurch wir den Erkennungsmechanismus in einen Tracktor umwandeln. Wir zeigen das Potenzial des Tracktors und stellen einen neuen Stand der Technik bei drei Benchmarks für die Verfolgung mehrerer Objekte dar, indem wir ihn mit einer einfachen Wiederidentifikation und Kompensation der Kamerabewegung erweitern. Anschließend führen wir eine Analyse der Leistungsfähigkeit und Fehlfälle verschiedener aktueller Trackingmethoden im Vergleich zu unserem Tracktor durch. Überraschenderweise sind keiner der speziell auf Tracking ausgerichteten Methoden erheblich besser in komplexen Tracking-Szenarien, insbesondere bei kleinen und verdeckten Objekten oder fehlenden Erkennungen. Unser Ansatz hingegen bewältigt die meisten einfachen Tracking-Szenarien. Daher motivieren wir unseren Ansatz als ein neues Tracking-Paradigma und weisen auf vielversprechende Forschungsrichtungen für die Zukunft hin. Insgesamt erzielt Tracktor eine überlegene Tracking-Leistung im Vergleich zu allen aktuellen Trackingmethoden, und unsere Analyse legt offene und ungelöste Tracking-Herausforderungen offen, um zukünftige Forschungsansätze zu inspirieren.