EagerMOT: 3D Mehrfachobjektverfolgung durch Sensordatenfusion

Die Mehrzielverfolgung (MOT) ermöglicht mobilen Robotern eine fundierte Bewegungsplanung und -navigation durch die Lokalisierung von umliegenden Objekten im dreidimensionalen Raum und in der Zeit. Bestehende Methoden basieren auf Tiefensensoren (z.B. LiDAR), um Ziele im 3D-Raum zu erfassen und zu verfolgen, jedoch nur innerhalb eines begrenzten Sensierbereichs aufgrund der Sparsität des Signals. Kameraeinsatz hingegen bietet ein dichtes und reichhaltiges visuelles Signal, das hilft, auch ferne Objekte zu lokalisieren, aber nur im Bildbereich. In dieser Arbeit schlagen wir EagerMOT vor, eine einfache Verfolgungsformulierung, die alle verfügbaren Objektbeobachtungen aus beiden Sensorarten eifrig integriert, um eine gut informierte Interpretation der Szenendynamik zu erhalten. Mithilfe von Bildern können wir ferne eingehende Objekte identifizieren, während Tiefenschätzungen präzise Trajektorienlokalisierungen ermöglichen, sobald die Objekte innerhalb des Tiefensensierbereichs sind. Mit EagerMOT erzielen wir Stand-of-the-Art-Ergebnisse in mehreren MOT-Aufgaben auf den Datensätzen KITTI und NuScenes. Unser Code ist unter https://github.com/aleksandrkim61/EagerMOT verfügbar.