Die Aufklärung der monokularen 3D-Objekterkennung

In dieser Arbeit schlagen wir einen Ansatz für die monokulare 3D-Objekterkennung aus einem einzelnen RGB-Bild vor, der eine neuartige EntwirrungsTransformation für 2D- und 3D-Erkennungsverluste sowie ein neuartiges, selbstüberwachtes Vertrauensmaß für 3D-Bounding-Boxen nutzt. Unser vorgeschlagener Verlustentwirrungsansatz hat den zweifachen Vorteil, die Trainingsdynamik bei Verlustfunktionen mit komplexen Parameterninteraktionen zu vereinfachen und das Problem des Ausgleichs unabhängiger Regressionsbegriffe zu umgehen. Unsere Lösung überwindet diese Probleme, indem sie den Beitrag von Parametergruppen zu einem bestimmten Verlust isoliert, ohne dessen Natur zu ändern. Wir wenden ferner die Verlustentwirrung auf eine andere neuartige, signierte Intersection-over-Union (IoU) kriteriengetriebene Verlustfunktion an, um die Ergebnisse der 2D-Erkennung zu verbessern. Neben unseren methodischen Innovationen führen wir eine kritische Überprüfung des AP-Metriks (Average Precision), das im KITTI3D-Datensatz als wichtigstes Mittel zur Vergleich von 3D-Erkennungsergebnissen hervorgetreten ist. Wir identifizieren und beheben einen Fehler in der 11-Punkt-interpolierten AP-Metrik, der alle bisher veröffentlichten Erkennungsergebnisse beeinflusst und insbesondere die Ergebnisse der monokularen 3D-Erkennung verfälscht. Wir stellen umfangreiche experimentelle Evaluierungen und Abstraktionsstudien auf den Datensätzen KITTI3D und nuScenes vor, wodurch wir neue Standarteinstellungen in der Objektkategorie „Auto“ mit großem Vorsprung erreichen.