Jenseits von Kalman-Filtern: Deep-Learning-basierte Filter für eine verbesserte Objektverfolgung

Traditionelle Tracking-by-Detection-Systeme setzen typischerweise Kalman-Filter (KF) zur Zustandsabschätzung ein. Allerdings erfordern KF-Filter domain-spezifische Gestaltungsoptionen und eignen sich schlecht für die Behandlung nichtlinearer Bewegungsmuster. Um diese Einschränkungen zu überwinden, stellen wir zwei innovative datengetriebene Filtermethoden vor. Unsere erste Methode nutzt ein Bayes-Filter mit einem lernbaren Bewegungsmodell, um die zukünftige Position eines Objekts vorherzusagen, und kombiniert diese Vorhersagen mit Beobachtungen eines Objektdetektors, um die Genauigkeit der Bounding-Box-Vorhersage zu verbessern. Zudem verzichtet sie weitgehend auf die typischen, domain-spezifischen Gestaltungsoptionen des KF. Die zweite Methode, ein end-to-end trainierbares Filter, geht einen Schritt weiter, indem sie lernt, Detektorfehler zu korrigieren, wodurch der Bedarf an fachlicher Expertise weiter reduziert wird. Zudem führen wir eine Vielzahl von Bewegungsmodell-Architekturen basierend auf rekurrenten neuronalen Netzen, Neuralen gewöhnlichen Differentialgleichungen und bedingten neuronalen Prozessen ein, die mit den vorgeschlagenen Filtermethoden kombiniert werden. Unsere umfassende Evaluation an mehreren Datensätzen zeigt, dass unsere vorgeschlagenen Filter das traditionelle KF-Verfahren im Objektverfolgungsaufgaben übertrifft, insbesondere bei nichtlinearen Bewegungsmustern – jenem Anwendungsfall, für den unsere Filter am besten geeignet sind. Zudem führen wir eine Analyse der Rauschrobustheit unserer Filter durch und erzielen überzeugend positive Ergebnisse. Wir schlagen ferner eine neue Kostenfunktion zur Zuordnung von Beobachtungen zu Tracks vor. Unser Tracker, der diese neue Zuordnungskostenfunktion mit unseren vorgeschlagenen Filtern kombiniert, erreicht auf den datenreichen Datensätzen DanceTrack und SportsMOT gemessen an mehreren Metriken eine bessere Leistung als die herkömmliche SORT-Methode und andere bewegungsbasierende Tracker.