EA-LSS: Edge-aware Lift-splat-shot Framework für die 3D BEV-Objekterkennung

In den letzten Jahren wurde erheblicher Fortschritt bei Methoden zur 3D-Objekterkennung auf Basis des Lift-Splat-Shot (LSS)-Ansatzes erzielt. Dennoch bleibt eine ungenaue Tiefenschätzung ein wesentlicher Einschränkungsfaktor für die Genauigkeit von rein kamerabasierten und multimodalen 3D-Objekterkennungsmodellen, insbesondere in Bereichen mit starken Tiefenänderungen (d. h. dem sogenannten „Depth-Jump“-Problem). In diesem Artikel stellen wir einen neuartigen edge-aware Lift-Splat-Shot (EA-LSS)-Ansatz vor. Konkret wird ein edge-aware Depth Fusion (EADF)-Modul vorgeschlagen, um das „Depth-Jump“-Problem zu mildern, sowie ein Fine-Grained Depth (FGD)-Modul, um eine präzisere Supervision der Tiefenschätzung weiter zu verstärken. Unser EA-LSS-Framework ist mit allen LSS-basierten 3D-Objekterkennungsmodellen kompatibel und steigert deren Leistung signifikant, ohne dabei die Inferenzzeit wesentlich zu erhöhen. Experimente auf dem nuScenes-Benchmark zeigen, dass EA-LSS sowohl bei rein kamerabasierten als auch bei multimodalen Modellen wirksam ist. Besonders hervorzuheben ist, dass EA-LSS auf den nuScenes-Testbenchmarks die derzeit beste Leistung erzielt, mit einem mAP von 76,5 % und einem NDS von 77,6 %.