HyperAIHyperAI

Command Palette

Search for a command to run...

EPMF: Effiziente wahrnehmungsorientierte Mehrsensorfusion für die 3D-Semantische Segmentierung

Mingkui Tan Zhuangwei Zhuang Sitao Chen Rong Li Kui Jia Qicheng Wang Yuanqing Li

Zusammenfassung

Wir untersuchen die Mehrsensorfusion für die 3D-Semantische Segmentierung, die für die Szenenverstehbarkeit in zahlreichen Anwendungen wie autonomen Fahrzeugen und Robotik von entscheidender Bedeutung ist. Bestehende auf Fusion basierende Ansätze erreichen jedoch möglicherweise keine zufriedenstellenden Ergebnisse, da die beiden Modalitäten erhebliche Unterschiede aufweisen. In dieser Arbeit untersuchen wir ein kooperatives Fusionsschema namens perception-aware multi-sensor fusion (PMF), um die perceptuelle Information aus zwei Modalitäten effektiv auszunutzen: die Erscheinungsmerkmale aus RGB-Bildern und die raumzeitliche Tiefeninformation aus Punktwolken. Hierzu projizieren wir die Punktwolken mittels perspektivischer Projektion in das Kamerakoordinatensystem und verarbeiten sowohl die Eingaben aus LiDAR als auch aus Kameras im 2D-Raum, wobei wir den Informationsverlust der RGB-Bilder vermeiden. Anschließend schlagen wir ein zweistromiges Netzwerk vor, um Merkmale aus beiden Modalitäten separat zu extrahieren. Die extrahierten Merkmale werden durch effektive, auf Residual-Modulen basierende Fusionseinheiten zusammengeführt. Zudem führen wir zusätzliche perception-aware Verlustfunktionen ein, um den perceptuellen Unterschied zwischen den beiden Modalitäten zu messen. Schließlich präsentieren wir eine verbesserte Version von PMF, namens EPMF, die durch Optimierung der Datenvorverarbeitung und des Netzwerkarchitekturen unter perspektivischer Projektion effizienter und leistungsfähiger ist. Insbesondere schlagen wir eine quermodale Ausrichtung und Ausschneidung vor, um enge Eingabedaten zu erhalten und unnötige Rechenkosten zu reduzieren. Anschließend untersuchen wir effizientere kontextuelle Module unter perspektivischer Projektion und integrieren die LiDAR-Merkmale in den Kamerastrom, um die Leistung des zweistromigen Netzwerks zu steigern. Umfangreiche Experimente auf Benchmark-Datensätzen belegen die Überlegenheit unseres Ansatzes. Beispielsweise erreicht unsere EPMF auf dem nuScenes-Testset eine Verbesserung von 0,9 % im mIoU gegenüber dem aktuellen Stand der Technik, d.h. RangeFormer. Der Quellcode ist unter https://github.com/ICEORY/PMF verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EPMF: Effiziente wahrnehmungsorientierte Mehrsensorfusion für die 3D-Semantische Segmentierung | Paper | HyperAI