MMFN: Multi-Modale-Fusions-Netzwerk für End-to-End-Fahrzeugsteuerung

Inspiration für die Verwendung von Sensoren mit verschiedenen Modalitäten im end-to-end-Fahrzeuglenkungssystem stammt aus der Tatsache, dass Menschen zur Wahrnehmung der Welt verschiedene Sinnesorgane einsetzen. In früheren Arbeiten wurden Kamera- und LiDAR-Daten durch Transformatoren fusioniert, um die Fahrleistung zu verbessern. Diese Daten werden in der Regel als hochwertige Kartendaten interpretiert, um Navigationsaufgaben zu unterstützen. Dennoch stellt die Extraktion nützlicher Informationen aus den komplexen Kartendaten eine Herausforderung dar, da überflüssige Informationen das Agent verleiten können und die Fahrleistung negativ beeinflussen können. Wir schlagen einen neuen Ansatz vor, um effizient Merkmale aus vektorisierten High-Definition (HD)-Karten zu extrahieren und diese in end-to-end-Fahrzeuglenkungsaufgaben zu nutzen. Zudem entwickeln wir einen neuen Experten, der die Modellleistung durch Berücksichtigung mehrerer Straßenregeln weiter verbessert. Experimentelle Ergebnisse zeigen, dass beide vorgeschlagenen Verbesserungen unser Agent in der Lage sind, eine überlegene Leistung im Vergleich zu anderen Methoden zu erzielen.