Ray Denoising: Tiefenbewusste Hard Negative Sampling für die Multiview-3D-Objekterkennung

Multi-View-3D-Objektdetektionssysteme leiden häufig unter ungenauen Vorhersagen, da die Tiefenschätzung aus Bildern eine große Herausforderung darstellt, was zu einer Zunahme redundanter und fehlerhafter Detektionen führt. In unserer Arbeit präsentieren wir Ray Denoising, eine innovative Methode, die die Detektionsgenauigkeit durch strategisches Sampling entlang Kameraray’s verbessert, um schwierige negative Beispiele zu konstruieren. Diese Beispiele sind visuell schwer von echten Positiven zu unterscheiden und zwingen das Modell, tiefenbewusste Merkmale zu lernen, wodurch seine Fähigkeit zur Unterscheidung zwischen echten und falschen Positiven erheblich gesteigert wird. Ray Denoising ist als plug-and-play-Modul konzipiert und kompatibel mit beliebigen DETR-artigen Multi-View-3D-Detektoren. Es erhöht die Trainingsrechenkosten nur minimal und beeinträchtigt die Inference-Geschwindigkeit nicht. Unsere umfassenden Experimente, einschließlich detaillierter Ablationsstudien, zeigen konsistent, dass Ray Denoising starke Baselines auf mehreren Datensätzen übertrifft. Auf dem NuScenes-Datensatz erreicht es eine Verbesserung der mittleren Genauigkeit (mAP) um 1,9 % gegenüber dem Stand der Technik, der StreamPETR-Methode. Auch auf dem Argoverse 2-Datensatz zeigt die Methode signifikante Leistungssteigerungen, was ihre Generalisierungsfähigkeit unterstreicht. Der Quellcode wird unter https://github.com/LiewFeng/RayDN verfügbar sein.