HyperAIHyperAI
vor 11 Tagen

Lernen von geometriegeleiteter Tiefe mittels projektiver Modellierung für die monokulare 3D-Objekterkennung

Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu
Lernen von geometriegeleiteter Tiefe mittels projektiver Modellierung für die monokulare 3D-Objekterkennung
Abstract

Als entscheidende Aufgabe im Bereich autonomes Fahren hat die 3D-Objekterkennung in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch bleibt die monokulare 3D-Objekterkennung eine herausfordernde Aufgabe, da die Schätzung der Tiefeninformationen bisher unzureichend ist. Die meisten bestehenden monokularen Ansätze schätzen die Szenentiefe typischerweise direkt ab, wobei jedoch wichtige Beziehungen zwischen der Tiefe und verschiedenen geometrischen Elementen (z. B. Bounding-Box-Größen, 3D-Objektabmessungen und Objektposen) ignoriert werden. In diesem Artikel schlagen wir eine geometriegeleitete Tiefenschätzung mittels projektiver Modellierung vor, um die monokulare 3D-Objekterkennung zu verbessern. Konkret wird eine konsistente geometrische Formel mit projektiver Modellierung der 2D- und 3D-Tiefenschätzungen innerhalb eines monokularen 3D-Objekterkennungsnetzwerks entwickelt. Wir implementieren und integrieren diese Formel zudem, um geometriebewusstes Lernen tiefgehender Darstellungen zu ermöglichen und effektive Interaktionen zwischen 2D- und 3D-Informationen zu fördern, was die Tiefenschätzung erheblich verbessert. Darüber hinaus stellen wir eine starke Baseline bereit, indem wir erhebliche Unstimmigkeiten zwischen 2D-Annotationen und projizierten Boxen adressieren, um eine robuste Lernleistung mit der vorgeschlagenen geometrischen Formel sicherzustellen. Experimente auf dem KITTI-Datensatz zeigen, dass unsere Methode die Erkennungsleistung des aktuellen Standes der Technik bei monokularen Ansätzen ohne zusätzliche Daten um 2,80 % im moderate-Test-Setting signifikant verbessert. Das Modell und der Code werden unter https://github.com/YinminZhang/MonoGeo veröffentlicht.

Lernen von geometriegeleiteter Tiefe mittels projektiver Modellierung für die monokulare 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI