Engineering eines effizienten Objektverfolgers für nichtlineare Bewegung

Das Ziel der Mehrobjektverfolgung besteht darin, alle Objekte in einer Szene zu detektieren und zu verfolgen, während für jedes Objekt ein eindeutiger Identifikator beibehalten wird, indem deren Bounding-Boxen über Videoframes hinweg assoziiert werden. Diese Assoziation beruht auf der Übereinstimmung von Bewegungs- und Erscheinungsmustern detektierter Objekte. Diese Aufgabe ist besonders herausfordernd in Szenarien mit dynamischen und nichtlinearen Bewegungsmustern. In diesem Paper stellen wir DeepMoveSORT vor, einen neuartigen, sorgfältig entworfenen Mehrobjektverfolger, der speziell für solche Szenarien konzipiert ist. Neben herkömmlichen Methoden der appearancesbasierten Assoziation verbessern wir die bewegungsbasierte Assoziation durch den Einsatz von tiefen, lernbaren Filtern (anstelle des häufig verwendeten Kalman-Filters) sowie einer Vielzahl neu vorgeschlagener Heuristiken. Unsere Verbesserungen der bewegungsbasierten Assoziationsmethoden sind mehrfach. Erstens schlagen wir eine neue, auf Transformers basierende Filterarchitektur, TransFilter, vor, die die Bewegungsgeschichte eines Objekts sowohl zur Bewegungsvorhersage als auch zur Rauschunterdrückung nutzt. Wir steigern zudem die Leistung des Filters durch eine sorgfältige Behandlung der Bewegungsgeschichte und die Berücksichtigung der Kamerabewegung. Zweitens präsentieren wir eine Reihe von Heuristiken, die Informationen aus der Position, Form und Zuverlässigkeit der detektierten Bounding-Boxes ausnutzen, um die Assoziationsleistung zu verbessern. Unsere experimentelle Bewertung zeigt, dass DeepMoveSORT bestehende Verfolger in Szenarien mit nichtlinearen Bewegungen übertrifft und die bisher besten Ergebnisse auf drei solchen Datensätzen erzielt. Zudem führen wir eine gründliche Ablationsstudie durch, um die Beiträge der einzelnen von uns vorgeschlagenen Komponenten zu evaluieren. Aufgrund unserer Studie schließen wir, dass der Einsatz eines lernbaren Filters anstelle des Kalman-Filters, kombiniert mit appearancesbasierter Assoziation, entscheidend für eine starke allgemeine Verfolgungsleistung ist.