CoBEV: Steigerung der 3D-Objekterkennung am Straßenrand durch Tiefen- und Höhenkomplementarität

Die 3D-Objekterkennung auf Basis von Straßenrandkameras ist eine entscheidende Aufgabe in intelligenten Verkehrssystemen, da sie die Wahrnehmungsradius über die Beschränkungen visionzentrierter Fahrzeuge hinaus erweitert und die Verkehrssicherheit verbessert. Während frühere Studien lediglich auf Tiefen- oder Höheninformationen beschränkt waren, zeigen wir, dass sowohl Tiefen- als auch Höheninformationen von Bedeutung sind und sich tatsächlich ergänzen. Die Tiefenmerkmale enthalten präzise geometrische Hinweise, während die Höhenmerkmale hauptsächlich darauf abzielen, verschiedene Kategorien von Höhenintervallen zu unterscheiden und somit semantische Kontextinformationen bereitzustellen. Diese Erkenntnis motiviert die Entwicklung von Complementary-BEV (CoBEV), eines neuartigen end-to-end-monokularen 3D-Objekterkennungsframeworks, das Tiefen- und Höheninformationen integriert, um robuste BEV-(Bird’s Eye View-)Darstellungen zu konstruieren. Im Wesentlichen schätzt CoBEV die Tiefen- und Höhenverteilung jedes Pixels und hebt die Kameramerkmale unter Verwendung des neu vorgeschlagenen zweistufigen komplementären Merkmalsauswahlmoduls (CFS) in den 3D-Raum, um eine laterale Fusion durchzuführen. Zudem wird ein BEV-Merkmals-Distillationssystem nahtlos integriert, um die Erkennungsgenauigkeit durch das vorherige Wissen des fusionierenden CoBEV-Teachers weiter zu verbessern. Wir führen umfangreiche Experimente auf öffentlichen 3D-Erkennungsbenchmarks basierend auf Straßenrandkameras – DAIR-V2X-I und Rope3D – sowie auf dem privaten Supremind-Road-Datensatz durch und zeigen, dass CoBEV nicht nur die Genauigkeit des aktuellen Standes der Technik erreicht, sondern auch die Robustheit bisheriger Methoden in anspruchsvollen Szenarien mit großer Entfernung und störenden Kamerereizen erheblich verbessert und die Generalisierbarkeit bei heterogenen Bedingungen mit starken Änderungen in Szenen und Kameraparametern erheblich steigert. Zum ersten Mal erreicht der Fahrzeug-AP-Wert eines Kameramodells auf DAIR-V2X-I im einfachen Modus 80 %. Der Quellcode wird öffentlich unter https://github.com/MasterHow/CoBEV zur Verfügung gestellt.