MapTR: Strukturierte Modellierung und Lernen für die Online-Vektorisierung von HD-Karten

Ein High-Definition (HD)-Kartenverfahren bietet reichhaltige und präzise Umgebungsinformationen der Fahrzeugumgebung und dient als grundlegendes und unverzichtbares Komponenten für die Planung im autonomen Fahren. Wir stellen MapTR vor, eine strukturierte End-to-End-Transformer-Architektur zur effizienten Online-Vektorisierung von HD-Karten. Wir schlagen einen einheitlichen permutationsäquivalenten Modellierungsansatz vor, d.h., das Modellieren von Kartelementen als Punktmengen mit einer Gruppe äquivalenter Permutationen, was die Form der Kartelemente genau beschreibt und den Lernprozess stabilisiert. Wir entwickeln ein hierarchisches Abfragemodell, um strukturierte Karteninformationen flexibel zu kodieren und hierarchisches bipartites Matching für das Lernen von Kartelementen durchzuführen. MapTR erzielt die beste Leistung und Effizienz unter den existierenden vektorisierten Kartenkonstruktionsmethoden auf dem nuScenes-Datensatz, wobei nur Kamerasignale verwendet werden. Insbesondere erreicht MapTR-nano eine Echtzeit-Inferenzgeschwindigkeit ($25{,}1$ FPS) auf einem RTX 3090-GPU, was $8\times$ schneller ist als die bisher beste kamera-basierte Methode, während es gleichzeitig einen $5{,}0$ höheren mAP-Wert erreicht. Im Vergleich zur besten existierenden Multimodalitätsmethode erreicht MapTR-nano einen $0{,}7$ höheren mAP-Wert und MapTR-tiny einen $13{,}5$ höheren mAP-Wert sowie eine Inferenzgeschwindigkeit, die $3\times$ schneller ist. Reiche qualitative Ergebnisse zeigen, dass MapTR in komplexen und vielfältigen Fahrzeugumgebungen eine stabile und robuste Kartenkonstruktion gewährleistet. MapTR hat großen Anwendungswert im Bereich des autonomen Fahrens. Der Quellcode und weitere Demos sind unter \url{https://github.com/hustvl/MapTR} verfügbar.