Kontrastives Lernen für die Multi-Object-Verfolgung mit Transformers

Der DEtection TRansformer (DETR) eröffnete neue Möglichkeiten für die Objektdetektion, indem er das Problem als Übersetzungsproblem modellierte: die Umwandlung von Bildmerkmalen in objektbasierte Darstellungen. Frühere Ansätze fügten typischerweise kostspielige Module zu DETR hinzu, um die Multi-Object-Tracking-(MOT)-Aufgabe zu bewältigen, was zu komplexeren Architekturen führte. Stattdessen zeigen wir, wie DETR durch die Einführung einer instanzbasierten kontrastiven Verlustfunktion, einer überarbeiteten Abtaststrategie und einer leichtgewichtigen Zuordnungsmethode in ein MOT-Modell umgewandelt werden kann. Unser Trainingsansatz lernt Objektaussehen, bewahrt gleichzeitig die Detektionsfähigkeit und erzeugt nur geringen Overhead. Auf dem anspruchsvollen BDD100K-Datensatz übertrifft seine Leistung die vorherige State-of-the-Art um +2,6 mMOTA und ist auf dem MOT17-Datensatz mit bestehenden transformerbasierten Methoden vergleichbar.