HyperAIHyperAI
vor 11 Tagen

HRFuser: Eine Multi-Resolution-Sensor-Fusions-Architektur für die 2D-Objekterkennung

Tim Broedermann, Christos Sakaridis, Dengxin Dai, Luc Van Gool
HRFuser: Eine Multi-Resolution-Sensor-Fusions-Architektur für die 2D-Objekterkennung
Abstract

Neben Standardkameras verfügen autonome Fahrzeuge typischerweise über mehrere zusätzliche Sensoren, wie Lidar- und Radar-Sensoren, die eine reichhaltigere Informationssammlung für die Wahrnehmung der Fahrsituation ermöglichen. Während mehrere neuere Arbeiten sich darauf konzentrieren, bestimmte Sensorenpaare – beispielsweise Kamera mit Lidar oder Radar – durch spezifische architektonische Komponenten, die auf den jeweiligen Anwendungskontext abgestimmt sind, zu fusionieren, fehlt in der Literatur bislang eine generische und modulare Architektur für die Sensorfusion. In dieser Arbeit präsentieren wir HRFuser, eine modulare Architektur für die multimodale 2D-Objekterkennung. Sie führt die Fusion mehrerer Sensoren mehrskalig durch und skaliert auf eine beliebige Anzahl von Eingabemodalitäten. Die Gestaltung von HRFuser basiert auf modernsten Hochauflösungsnetzwerken für dichte Vorhersagen allein auf Basis von Bildern und integriert einen neuartigen Multi-Window Cross-Attention-Block, um die Fusion mehrerer Modalitäten auf mehreren Auflösungsebenen durchzuführen. Wir zeigen anhand umfangreicher Experimente auf den nuScenes- und den DENSE-Datensätzen unter ungünstigen Bedingungen, dass unser Modell die ergänzenden Merkmale zusätzlicher Modalitäten effektiv nutzt, die Leistung bei rein kamerabasierter Erkennung erheblich verbessert und konsistent die derzeit besten 3D- und 2D-Fusionsmethoden bei der Bewertung anhand von 2D-Objekterkennungs-Metriken übertrifft. Der Quellcode ist öffentlich verfügbar.

HRFuser: Eine Multi-Resolution-Sensor-Fusions-Architektur für die 2D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI