ETTrack: Verbesserter zeitlicher Bewegungsvorhersager für die Multi-Objektverfolgung

Viele Ansätze im Multi-Object Tracking (MOT) nutzen Bewegungsinformationen, um die erkannten Objekte über verschiedene Frames hinweg zu assoziieren. Allerdings funktionieren viele Methoden, die auf filterbasierten Algorithmen wie dem Kalman-Filter beruhen, oft nur gut in Szenarien mit linearer Bewegung, während sie Schwierigkeiten haben, die Positionen von Objekten mit komplexen und nichtlinearen Bewegungen präzise vorherzusagen. Um diese Herausforderungen zu bewältigen, stellen wir einen bewegungsorientierten MOT-Ansatz namens ETTrack mit einem verbesserten zeitlichen Bewegungsvorhersager vor. Konkret integriert der Bewegungsvorhersager ein Transformer-Modell und ein Temporales Faltungsnetzwerk (Temporal Convolutional Network, TCN), um sowohl kurzfristige als auch langfristige Bewegungsmuster zu erfassen, und prognostiziert die zukünftige Bewegung einzelner Objekte basierend auf historischen Bewegungsinformationen. Zudem schlagen wir eine neuartige Momentum-Korrektur-Verlustfunktion vor, die während des Trainings zusätzliche Informationen über die Bewegungsrichtung der Objekte bereitstellt. Dadurch kann der Bewegungsvorhersager schneller auf Bewegungsänderungen reagieren und die zukünftige Bewegung präziser vorhersagen. Unsere experimentellen Ergebnisse zeigen, dass ETTrack im Vergleich zu aktuellen Spitzenverfolgern auf den Datensätzen DanceTrack und SportsMOT eine konkurrenzfähige Leistung erzielt, wobei die HOTA-Metriken bei 56,4 % bzw. 74,4 % liegen.