HyDRa entfesseln: Hybride Fusion, Tiefenkonstanz und Radar für einheitliche 3D-Wahrnehmung

Niedrigkostensysteme zur 3D-Wahrnehmung, die sich auf visuelle Sensoren konzentrieren, haben in den letzten Jahren erhebliche Fortschritte gemacht und den Abstand zu teuren LiDAR-basierten Methoden verringert. Die Hauptausforderung bei der Entwicklung zu einer vollständig verlässlichen Alternative besteht darin, robuste Tiefenschätzungen durchzuführen, da kamera-basierte Systeme mit langen Erkennungsbereichen sowie ungünstigen Beleuchtungs- und Wetterbedingungen Schwierigkeiten haben. In dieser Arbeit stellen wir HyDRa vor, eine neuartige Kamera-Radar-Fusionsarchitektur für vielfältige 3D-Wahrnehmungsaufgaben. Aufbauend auf den Prinzipien dichter BEV (Bird's Eye View)-basierter Architekturen führt HyDRa einen hybriden Fusionsansatz ein, um die Stärken ergänzender Kamera- und Radarmerkmale in zwei unterschiedlichen Repräsentationsräumen zu kombinieren. Unser Modul für die Höheassoziationstransformation nutzt Radarmerkmale bereits in der Perspektivansicht, um robustere und genaue Tiefenschätzungen zu erzeugen. Im BEV raffinen wir die anfängliche dünn besetzte Repräsentation durch eine radar-gewichtete Tiefenkonsistenz. HyDRa erreicht einen neuen Stand der Technik für die Kamera-Radar-Fusion mit 64,2 NDS (+1,8) und 58,4 AMOTA (+1,5) im öffentlichen nuScenes-Datensatz. Darüber hinaus können unsere neuen semantisch reichhaltigen und räumlich genauen BEV-Merkmale direkt in eine leistungsfähige Besetzungsdarstellung umgewandelt werden, wodurch sie alle bisherigen kamera-basierten Methoden im Occ3D-Benchmark um beeindruckende 3,7 mIoU übertrifft. Der Quellcode und die Modelle sind unter https://github.com/phi-wol/hydra verfügbar.