Geometrisches Unsicherheitsprojektionsnetzwerk für die monokulare 3D-Objekterkennung

Die Geometrie-Projektion ist eine leistungsstarke Methode zur Tiefenschätzung in der monokularen 3D-Objekterkennung. Sie schätzt die Tiefe basierend auf den Höhen, was mathematische A-priori-Wissen in das tiefen neuronale Modell einbringt. Allerdings führt der Projektionsprozess auch zu einem Problem der Fehlerverstärkung, bei dem der Fehler der geschätzten Höhe stark in der Ausgabetiefe vergrößert und reflektiert wird. Diese Eigenschaft führt zu unkontrollierbaren Tiefenschätzungen und beeinträchtigt auch die Trainings-effizienz. In dieser Arbeit schlagen wir ein Netzwerk zur Geometrie-Unsicherheitsprojektion (GUP Net) vor, um das Problem der Fehlerverstärkung sowohl während des Inferenz- als auch des Trainingsprozesses anzugehen. Insbesondere wurde ein GUP-Modul entwickelt, das die geometrieführte Unsicherheit der geschätzten Tiefe ermittelt, was nicht nur einen hohen Zuverlässigkeitsgrad für jede Tiefe bietet, sondern auch das Lernen von Tiefen nützt. Darüber hinaus schlagen wir im Trainingsprozess eine hierarchische Aufgabenlernstrategie vor, um die Instabilität durch Fehlerverstärkung zu reduzieren. Dieser Lernalgorithmus überwacht die Lernsituation jeder Aufgabe durch einen vorgeschlagenen Indikator und weist den einzelnen Aufgaben anpassbar geeignete Verlustgewichte zu, abhängig von deren Vor-Aufgaben-Situation. Dadurch beginnt jede Aufgabe erst mit dem Lernen, wenn ihre Vor-Aufgaben gut gelernt wurden, was die Stabilität und Effizienz des Trainingsprozesses erheblich verbessern kann. Umfangreiche Experimente zeigen die Wirksamkeit des vorgeschlagenen Verfahrens. Das Gesamtmodell kann zuverlässiger Objekt-Tiefen schätzen als bestehende Methoden und übertreffen die besten bildbasierten monokularen 3D-Detektoren um 3,74 % und 4,7 % AP40 in den Kategorien Auto und Fußgänger auf dem KITTI-Benchmark.请注意,这里的“AP40”是指平均精度(Average Precision)在40个阈值下的表现,这是一个常见的评估指标,在德语中通常直接使用英文缩写。此外,“KITTI benchmark”是一个著名的自动驾驶数据集和评估平台,通常也直接使用英文名称。