vor 3 Monaten

FocalFormer3D: Fokussierung auf schwierige Instanzen für die 3D-Objekterkennung

Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez

Abstract

Falsch-negative (FN) Ergebnisse bei der 3D-Objekterkennung, beispielsweise ausgelassene Vorhersagen von Fußgängern, Fahrzeugen oder anderen Hindernissen, können in der autonomen Fahrzeugsteuerung potenziell gefährliche Situationen verursachen. Obwohl dieser Fehlertyp lebensbedrohlich ist, wird er in vielen aktuellen Ansätzen zur 3D-Erkennung bisher unterschätzt. In dieser Arbeit stellen wir Hard Instance Probing (HIP) vor, einen allgemeinen Pipeline-Ansatz, der FN auf mehrstufige Weise identifiziert und die Modelle anleitet, sich gezielt auf die Erkennung schwieriger Instanzen zu konzentrieren. Für die 3D-Objekterkennung implementieren wir diese Methode als FocalFormer3D, einen einfachen, jedoch hochwirksamen Detektor, der sich besonders gut zur Identifizierung schwieriger Objekte eignet und die Vorhersage-Recall-Rate verbessert. FocalFormer3D verfügt über eine mehrstufige Abfragergenerierung zur Entdeckung schwieriger Objekte sowie einen box-basierten Transformer-Decoder, der effizient zwischen einer großen Menge möglicher Objekte unterscheidet. Experimentelle Ergebnisse auf den Datensätzen nuScenes und Waymo bestätigen die herausragende Leistungsfähigkeit von FocalFormer3D. Die Vorteile resultieren in hervorragenden Ergebnissen sowohl bei der Detektion als auch bei der Objektverfolgung, sowohl in LiDAR- als auch in multimodalen Szenarien. Insbesondere erreicht FocalFormer3D eine mAP von 70,5 und eine NDS von 73,9 im nuScenes-Detektionsbenchmark, während der nuScenes-Verfolgungsbenchmark eine AMOTA von 72,1 erreicht – jeweils Platz 1 auf der nuScenes LiDAR-Leaderboard. Der Quellcode ist unter \url{https://github.com/NVlabs/FocalFormer3D} verfügbar.