Lerngesteuertes Faltungsnetzwerk für Tiefenvervollständigung

Dichte Tiefenwahrnehmung ist für autonome Fahrzeuge und andere Robotik-Anwendungen von entscheidender Bedeutung. Moderne LiDAR-Sensoren liefern jedoch nur dünn besetzte Tiefenmessungen. Es ist daher notwendig, die dünnen LiDAR-Daten zu vervollständigen, wobei ein synchronisierter Führungs-RGB-Bild oft verwendet wird, um diese Vervollständigung zu erleichtern. Viele neuronale Netze wurden für diese Aufgabe entwickelt. Sie fügen jedoch oft naiv LiDAR-Daten und RGB-Bildinformationen durch Merkmalskonglomerierung oder elementweise Addition zusammen. Inspiriert durch das geführte Bildfiltern, entwerfen wir ein neues geführtes Netzwerk, um Kerngewichte aus dem Führungs-Bild vorherzusagen. Diese vorhergesagten Kerne werden dann angewendet, um die Tiefenbildmerkmale zu extrahieren. Auf diese Weise generiert unser Netzwerk inhaltsabhängige und räumlich variierende Kerne für die Fusion multimodaler Merkmale. Dynamisch generierte räumlich variierende Kerne können jedoch zu unzulässig hohem GPU-Speicherverbrauch und Rechenoverhead führen. Wir entwerfen daher eine Faktorisierung der Faltung, um den Rechenaufwand und den Speicherverbrauch zu reduzieren. Die Reduzierung des GPU-Speichers ermöglicht es, dass die Merkmalsfusion in einem mehrstufigen Schema funktioniert. Wir führen umfassende Experimente durch, um unsere Methode anhand realer Außen-, Innen- und synthetischer Datensätze zu verifizieren. Unsere Methode erzielt starke Ergebnisse: Sie übertrifft die Standesder-Technik-Methoden im NYUv2-Datensatz und rangiert zum Zeitpunkt der Abgabe auf Platz 1 im KITTI-Tiefenvervollständigungsbenchmark. Sie zeigt auch eine starke Generalisierungsfähigkeit bei unterschiedlichen 3D-Punkt-Dichten, verschiedenen Beleuchtungs- und Wetterbedingungen sowie bei Kreuzdatensatz-Evaluierungen. Der Code wird veröffentlicht, um Reproduktion zu ermöglichen.请注意,这里的“na\"ıvely”被翻译为“naiv”,这是德语中常用的拼写方式。其他专业术语如“LiDAR”、“RGB”等保持不变,以确保准确性。