JRMOT: Ein Echtzeit-3D-Mehrobenverfolgungssystem und eine neue großskalige Datensammlung

Roboter, die sich autonom fortbewegen, müssen die Bewegung von Objekten und anderen Agenten in ihrer Umgebung wahrnehmen und verfolgen. Diese Informationen ermöglichen die Planung und Ausführung robuster und sicherer Trajektorien. Um diese Prozesse zu unterstützen, sollte die Bewegung im dreidimensionalen kartesischen Raum erfasst werden. Allerdings konzentriert sich der Großteil der aktuellen Forschung im Bereich der mehrfachen Objektverfolgung (Multi-Object Tracking, MOT) auf die Verfolgung von Menschen und beweglichen Objekten in 2D-RGB-Videosequenzen. In dieser Arbeit präsentieren wir JRMOT, ein neuartiges 3D-MOT-System, das Informationen aus RGB-Bildern und 3D-Punktwolken integriert, um Echtzeit-Leistungen auf höchstem Niveau zu erzielen. Unser System basiert auf modernen neuronalen Netzwerken zur Re-Identifikation, 2D- und 3D-Detektion sowie zur Beschreibung von Trajektorien, die in einen gemeinsamen probabilistischen Daten-Zuordnungsrahmen innerhalb einer mehrmodalen rekursiven Kalman-Architektur integriert sind. Als Teil dieser Arbeit veröffentlichen wir die JRDB-Datenbank, eine neue große 2D+3D-Datenbank und Benchmark, annotiert mit über zwei Millionen Bounding Boxes und 3500 zeitkonsistenten 2D+3D-Trajektorien über 54 Innen- und Außenbereiche. JRDB enthält über 60 Minuten Daten, darunter 360-Grad-zylindrische RGB-Videos und 3D-Punktwolken in sozialen Szenarien, die wir zur Entwicklung, Ausbildung und Evaluation von JRMOT nutzen. Das vorgestellte 3D-MOT-System erzielt Spitzenleistungen gegenüber konkurrierenden Methoden auf der populären 2D-Verfolgungs-Benchmark KITTI und stellt die erste 3D-Verfolgungslösung für unsere Benchmark dar. Testläufe mit unserem sozialen Roboter JackRabbot zeigen, dass das System in der Lage ist, mehrere Fußgänger schnell und zuverlässig zu verfolgen. Den ROS-Code unseres Trackers stellen wir unter https://sites.google.com/view/jrmot zur Verfügung.