HyperAIHyperAI
vor 11 Tagen

Probabilistische und geometrische Tiefe: Erkennung von Objekten in Perspektive

Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin
Probabilistische und geometrische Tiefe: Erkennung von Objekten in Perspektive
Abstract

Die 3D-Objekterkennung ist eine zentrale Fähigkeit für zahlreiche praktische Anwendungen, beispielsweise in Fahrerassistenzsystemen. Die monokulare 3D-Erkennung, als repräsentatives allgemeines Ansatzschema innerhalb bildbasierter Methoden, bietet eine kostengünstigere Lösung im Vergleich zu herkömmlichen Ansätzen, die auf LiDARs basieren, erzielt jedoch weiterhin unzufriedenstellende Ergebnisse. In diesem Artikel führen wir zunächst eine systematische Untersuchung dieses Problems durch. Wir stellen fest, dass die aktuelle monokulare 3D-Erkennung vereinfacht als Aufgabe der Tiefenschätzung pro Instanz betrachtet werden kann: Die ungenaue Tiefenschätzung einer Instanz behindert die Verbesserung aller anderen 3D-Attributvorhersagen und somit die Gesamtleistung der Erkennung. Zudem schätzen neuere Methoden die Tiefe direkt auf Basis isolierter Instanzen oder Pixeln, wobei sie die geometrischen Beziehungen zwischen verschiedenen Objekten ignorieren. Um dies zu adressieren, konstruieren wir geometrische Beziehungsgraphen zwischen den vorhergesagten Objekten und nutzen diesen Graphen, um die Tiefenschätzung zu verbessern. Da die vorläufige Tiefenschätzung jeder Instanz in diesem schlecht gestellten Problem meist ungenau ist, integrieren wir eine probabilistische Darstellung, um die Unsicherheit zu erfassen. Diese liefert einen wichtigen Indikator zur Identifizierung zuverlässiger Vorhersagen und unterstützt zudem die Weiterleitung der Tiefeninformationen. Trotz der Einfachheit der Grundidee erreicht unsere Methode, PGD, signifikante Verbesserungen auf den Benchmarks KITTI und nuScenes, erreicht dabei den ersten Platz unter allen monokularen, rein visionbasierten Ansätzen und bleibt dennoch in Echtzeit-effizient. Der Quellcode und die Modelle werden unter https://github.com/open-mmlab/mmdetection3d veröffentlicht.

Probabilistische und geometrische Tiefe: Erkennung von Objekten in Perspektive | Neueste Forschungsarbeiten | HyperAI