Einschreiten in Lokalisierungsfehler für Monokulare 3D-Objekterkennung

Die Schätzung von 3D-Bounding-Boxen aus monokularen Bildern ist ein wesentlicher Bestandteil des autonomen Fahrens, während die genaue 3D-Objekterkennung aus diesen Daten sehr herausfordernd ist. In dieser Arbeit quantifizieren wir durch umfangreiche Diagnoseexperimente den Einfluss, der durch jede Teilaufgabe eingeführt wird, und stellen fest, dass der „Lokalisierungsfehler“ der entscheidende Faktor ist, der die monokulare 3D-Erkennung einschränkt. Darüber hinaus untersuchen wir auch die zugrunde liegenden Gründe für Lokalisierungsfehler, analysieren die damit verbundenen Probleme und schlagen drei Strategien vor. Erstens betrachten wir erneut die Fehlpositionierung zwischen dem Zentrum der 2D-Bounding-Box und dem projizierten Zentrum des 3D-Objekts, was ein wichtiger Faktor für eine geringe Lokalisierungsgenauigkeit ist. Zweitens beobachten wir, dass die genaue Lokalisierung von fernen Objekten mit vorhandenen Technologien fast unmöglich ist, während diese Proben das gelernte Netzwerk irreführen können. Zu diesem Zweck schlagen wir vor, solche Proben aus dem Trainingsdatensatz zu entfernen, um die Gesamtleistung des Detektors zu verbessern. Letztlich schlagen wir auch einen neuen 3D-IoU-orientierten Verlust für die Größenbestimmung des Objekts vor, der nicht vom „Lokalisierungsfehler“ beeinflusst wird. Wir führen umfangreiche Experimente auf dem KITTI-Datensatz durch, bei denen die vorgeschlagene Methode Echtzeit-Erkennung erreicht und deutlich bessere Ergebnisse als frühere Methoden erzielt. Der Code wird unter folgender URL zur Verfügung gestellt: https://github.com/xinzhuma/monodle.