TransCenter: Transformers mit dichten Darstellungen für die mehrfache Objektverfolgung

Seit ihrer Einführung haben Transformers eine überlegene Leistung für eine Vielzahl von Aufgaben gezeigt. In den letzten Jahren haben sie auch das Interesse der Vision-Community bei Aufgaben wie Bildklassifikation und Objektdetektion geweckt. Trotz dieser Entwicklung existiert bislang kein präzises und effizientes Mehrobjektverfolgungssystem (Multiple-Object Tracking, MOT), das auf Transformers basiert. Wir argumentieren, dass die direkte Anwendung einer Transformer-Architektur mit quadratischer Komplexität und unzureichend rauschbasierten, sparsen Abfragen nicht optimal für MOT ist. Wir stellen TransCenter vor, eine auf Transformers basierende MOT-Architektur mit dichten Repräsentationen, die es ermöglicht, alle Objekte präzise zu verfolgen, während gleichzeitig eine akzeptable Laufzeit gewährleistet wird. Methodisch schlagen wir die Verwendung von dichten, bildbezogenen Detektionsabfragen und effizienten, sparsen Verfolgungsabfragen vor, die durch unsere sorgfältig entworfene Query-Learning-Netzwerke (QLN) generiert werden. Einerseits ermöglichen die dichten, bildbezogenen Detektionsabfragen eine globale und robuste Schätzung der Zielpositionen über dichte Heatmap-Ausgaben. Andererseits interagieren die sparsen Verfolgungsabfragen effizient mit den Bildmerkmalen im TransCenter-Decoder, um Objektpositionen über die Zeit hinweg zu assoziieren. Infolge dessen zeigt TransCenter signifikante Leistungsverbesserungen und übertrifft bei zwei Standard-MOT-Benchmarks mit zwei unterschiedlichen Verfolgungs-Settings (öffentlich/private) deutlich die derzeitigen State-of-the-Art-Methoden. TransCenter wird zudem durch eine umfassende Ablationstudie sowie Vergleiche mit naiveren Alternativen und gleichzeitig veröffentlichten Arbeiten als effizient und genau bestätigt. Aus wissenschaftlichem Interesse steht der Quellcode öffentlich auf https://github.com/yihongxu/transcenter zur Verfügung.