PlanT: Erklärbare Planungstransformer durch objektorientierte Repräsentationen

Die Planung einer optimalen Route in einer komplexen Umgebung erfordert eine effiziente Analyse der umliegenden Szene. Während menschliche Fahrer wichtige Objekte priorisieren und Details ignorieren, die für die Entscheidungsfindung irrelevant sind, extrahieren lernbasierte Planer in der Regel Merkmale aus dichten, hochdimensionalen Gitterdarstellungen, die alle Informationen über Fahrzeuge und Straßen enthalten. In dieser Arbeit schlagen wir PlanT vor, einen neuen Ansatz für die Routenplanung im Kontext autonomer Fahrzeuge, der auf einer Standard-Transformer-Architektur basiert. PlanT nutzt Imitationslernen mit einer kompakten objektorientierten Eingabedarsellung. Auf dem Longest6-Benchmark für CARLA übertrifft PlanT alle bisherigen Methoden (indem es den Fahrzeugbewertungspunktestand des Experten erreicht), während es bei der Inferenz 5,3-mal schneller als vergleichbare pixelbasierte Planierungsverfahren ist. Die Kombination von PlanT mit einem standardisierten Wahrnehmungsmodul bietet ein sensorgestütztes Fahrsystem, das in Bezug auf den Fahrzeugbewertungspunktestand mehr als 10 Punkte besser ist als der aktuelle Stand der Technik. Darüber hinaus schlagen wir ein Evaluierungsprotokoll vor, um die Fähigkeit von Planern zu quantifizieren, relevante Objekte zu identifizieren, was Erkenntnisse über ihre Entscheidungsfindung liefert. Unsere Ergebnisse deuten darauf hin, dass PlanT sich auf das wichtigste Objekt in der Szene konzentrieren kann, auch wenn dieses geometrisch entfernt ist.