RTM3D: Echtzeit-Monokulare 3D-Erkennung von Objekt-Keypoints für Autonomes Fahren

In dieser Arbeit schlagen wir einen effizienten und genauen monoökularen 3D-Detektionsrahmen vor, der in einem Schritt arbeitet. Die meisten erfolgreichen 3D-Detektoren verwenden die Projektionsrestriktion vom 3D-Bounding-Box zur 2D-Box als wichtiges Element. Vier Kanten einer 2D-Box liefern nur vier Restriktionen, und die Leistung verschlechtert sich drastisch bei kleineren Fehlern des 2D-Detektors. Im Gegensatz zu diesen Ansätzen prognostiziert unsere Methode die neun perspektivischen Schlüsselpunkte einer 3D-Bounding-Box im Bildraum und nutzt dann das geometrische Verhältnis zwischen den 3D- und 2D-Perspektiven, um die Dimension, Position und Orientierung im 3D-Raum zu rekonstruieren. Mit dieser Methode können die Eigenschaften des Objekts stabil prognostiziert werden, selbst wenn die Schätzungen der Schlüsselpunkte sehr rauschig sind, was es uns ermöglicht, eine schnelle Detektionsgeschwindigkeit mit einer kleinen Architektur zu erzielen. Die Ausbildung unserer Methode verwendet ausschließlich die 3D-Eigenschaften des Objekts ohne externe Netzwerke oder Supervisionsdaten zu benötigen. Unsere Methode ist das erste Echtzeitsystem für monoökularen Bild-3D-Detektion und erreicht dabei den aktuellen Stand der Technik auf dem KITTI-Benchmark. Der Quellcode wird veröffentlicht unter https://github.com/Banconxuan/RTM3D.请注意,"monoökular" 是 "monocular" 的德语翻译,而 "Echtzeit" 则是 "real-time" 的德语翻译。此外,术语如 "Bounding Box", "Kitti Benchmark" 等在德语中通常保留英文形式,以保持专业性和国际通用性。