MOTRv2: Bootstrapping der end-to-end Mehrfachobjektverfolgung durch vortrainierte Objekterkennungsmodelle

In dieser Arbeit schlagen wir MOTRv2 vor, eine einfache und dennoch effektive Pipeline, um die end-to-end-Mehrzielverfolgung mit einem vortrainierten Objekterkennungsmodell zu initiieren. Bestehende end-to-end-Methoden wie MOTR und TrackFormer sind hinsichtlich ihrer Detektionsleistung ihren detektionsbasierten Gegenstücken unterlegen. Unser Ziel ist es, MOTR durch die geschickte Integration eines zusätzlichen Objekterkenners zu verbessern. Wir verwenden zunächst die Ankerformulierung der Abfragen und nutzen dann einen zusätzlichen Objekterkennungsdetektor, um Vorschläge als Anker zu generieren, wodurch wir MOTR ein Detektionsvorwissen zur Verfügung stellen. Diese einfache Modifikation lindert erheblich den Konflikt zwischen dem gemeinsamen Lernen von Detektions- und Zuordnungsaufgaben in MOTR. MOTRv2 behält das Merkmal der Abfragefortpflanzung bei und skaliert gut auf großen Benchmarks. Bei der 1. Mehrpersonenverfolgungsaufgabe im Gruppentanz-Challenge (DanceTrack) erreicht MOTRv2 den 1. Platz (73,4 % HOTA). Darüber hinaus zeigt MOTRv2 Spitzenleistungen auf dem BDD100K-Datensatz. Wir hoffen, dass diese einfache und effektive Pipeline neue Erkenntnisse für die Community der end-to-end-Mehrzielverfolgung liefert. Der Quellcode ist unter \url{https://github.com/megvii-research/MOTRv2} verfügbar.