RGB-X Objekterkennung durch szenebezogene Fusionsmodule

Die multimodale tiefen Sensorenfusion hat das Potenzial, autonome Fahrzeuge zu befähigen, ihre umgebende Umgebung in allen Wetterbedingungen visuell zu verstehen. Bestehende Methoden der tiefen Sensorenfusion verwenden jedoch in der Regel verwickelte Architekturen mit vermischten multimodalen Merkmalen, die große, koregistrierte multimodale Datensätze für das Training erfordern. In dieser Arbeit stellen wir ein effizientes und modulares RGB-X-Fusionsnetzwerk vor, das vortrainierte einmodale Modelle durch szenenspezifische Fusionsmodule nutzen und fusionieren kann. Dies ermöglicht es, gemeinsame eingabeadaptive Netzwerkarchitekturen mit kleinen, koregistrierten multimodalen Datensätzen zu erstellen. Unsere Experimente zeigen die Überlegenheit unserer Methode im Vergleich zu bestehenden Arbeiten auf RGB-Thermal- und RGB-Gated-Datensätzen, wobei die Fusion nur mit einer geringen Anzahl zusätzlicher Parameter durchgeführt wird. Unser Code ist unter https://github.com/dsriaditya999/RGBXFusion verfügbar.