Kinematische 3D Objekterkennung in monokularen Videos

Die Wahrnehmung der physischen Welt in 3D ist grundlegend für Anwendungen im Bereich autonomer Fahrzeuge. Obwohl zeitliche Bewegung eine unschätzbare Ressource für die menschliche Sehfähigkeit bei der Detektion, Verfolgung und Tiefenwahrnehmung darstellt, wurden solche Merkmale in modernen 3D-Objekterkennungsverfahren noch nicht ausreichend genutzt. In dieser Arbeit schlagen wir eine neuartige Methode zur monokularen video-basierten 3D-Objekterkennung vor, die kinematische Bewegung sorgfältig nutzt, um die Genauigkeit der 3D-Lokalisierung zu verbessern. Insbesondere schlagen wir zunächst eine neuartige Zerlegung der Objektorientierung sowie ein selbstbalancierendes 3D-Konfidenzmaß vor. Wir zeigen, dass beide Komponenten entscheidend sind, um unser kinematisches Modell effektiv arbeiten zu lassen. Zusammen führen wir mit nur einem einzigen Modell effizient 3D-Kinematik aus monokularen Videos aus, um die Gesamtgenauigkeit der Lokalisierung in der 3D-Objekterkennung zu verbessern und gleichzeitig nützliche Nebenprodukte der Szenedynamik (Egomotion und Gegenstands-geschwindigkeit) zu erzeugen. Wir erzielen den Stand der Technik in Bezug auf die monokulare 3D-Objekterkennung und die Aufgaben des Vogelblicks innerhalb des KITTI-Datensatzes für autonome Fahrzeuge.