HyperAIHyperAI
vor 3 Monaten

Das Lernen von Hilfsmonokularen Kontexten unterstützt die monokulare 3D-Objekterkennung

Xianpeng Liu, Nan Xue, Tianfu Wu
Das Lernen von Hilfsmonokularen Kontexten unterstützt die monokulare 3D-Objekterkennung
Abstract

Die monokulare 3D-Objekterkennung zielt darauf ab, 3D-Bounding-Boxes in einem einzigen 2D-Eingabebild zu lokalisieren. Dies stellt ein äußerst anspruchsvolles Problem dar, das bislang offen bleibt, insbesondere dann, wenn während des Trainings und/oder der Inferenz keine zusätzlichen Informationen (z. B. Tiefeninformation, Lidar-Daten oder mehrere Bildfolgen) genutzt werden können. In dieser Arbeit wird eine einfache, jedoch wirksame Formulierung für die monokulare 3D-Objekterkennung vorgestellt, die keinerlei zusätzliche Informationen nutzt. Der vorgeschlagene Ansatz, namens MonoCon, lernt dabei monokulare Kontexte als Hilfsaufgaben während des Trainings, um die Leistung der monokularen 3D-Objekterkennung zu verbessern. Der zentrale Gedanke basiert darauf, dass anhand der annotierten 3D-Bounding-Boxes von Objekten in einem Bild eine reiche Menge gutdefinierter projizierter 2D-Supervisionsignale verfügbar ist, wie beispielsweise projizierte Eckpunkte und deren zugehörige Verschiebungsvektoren bezüglich des Zentrums der 2D-Bounding-Box, die als Hilfsaufgaben im Trainingsprozess genutzt werden sollten. Die Idee von MonoCon wird auf hoher Ebene durch den Cramer-Wold-Satz aus der Maßtheorie motiviert. In der Implementierung setzt der Ansatz ein äußerst einfaches end-to-end-Design ein, um die Wirksamkeit des Lernens von Hilfsmonokularen Kontexten zu belegen. Dieses besteht aus drei Komponenten: einem tiefen neuronalen Netzwerk (DNN)-basierten Feature-Backbone, mehreren Regressionskopfzweigen zur Lernung der wesentlichen Parameter für die 3D-Bounding-Box-Vorhersage sowie weiteren Regressionskopfzweigen zur Lernung der Hilfskontexte. Nach dem Training werden die Hilfskontext-Regressionszweige zur Verbesserung der Inferenzgeschwindigkeit entfernt. In Experimenten wurde MonoCon am KITTI-Benchmark (Kategorie: Auto, Fußgänger, Radfahrer) evaluiert. Es erreicht auf der Leaderboard-Liste für die Kategorie Auto die besten Ergebnisse im Vergleich zu allen vorherigen Ansätzen und erzielt im Hinblick auf Genauigkeit vergleichbare Leistungen für Fußgänger und Radfahrer. Aufgrund der einfachen Architektur erreicht MonoCon im Vergleich die höchste Inferenzgeschwindigkeit mit 38,7 fps.