Bench2Drive: Auf dem Weg zur Mehrfach-Fähigkeits-Benchmarking von geschlossenen Schleifen End-to-End autonomem Fahren

In einem Zeitalter, geprägt durch die rasche Skalierung von Grundmodellen, nähern sich autonome Fahrtechnologien einer transformierenden Schwelle, an der End-to-End-Autonomes Fahren (E2E-AD) aufgrund seines Potenzials zur datengetriebenen Skalierung hervortritt. Bestehende E2E-AD-Methoden werden jedoch größtenteils unter dem offenen Schleifenprotokoll mit L2-Fehlern und Kollisionsrate als Metriken (z.B. in nuScenes) evaluiert, was die Fahrleistung der Algorithmen nicht vollständig widerspiegeln kann, wie kürzlich in der Fachgemeinschaft anerkannt wurde. Für jene E2E-AD-Methoden, die unter dem geschlossenen Schleifenprotokoll evaluiert werden, werden sie auf festgelegten Strecken getestet (z.B. Town05Long und Longest6 in CARLA) mit der Fahrleistung als Metrik, wobei bekannt ist, dass diese Metrik aufgrund der unglatten Metrikfunktion und großer Zufälligkeit auf langen Strecken eine hohe Varianz aufweist. Darüber hinaus sammeln diese Methoden in der Regel ihre eigenen Daten für das Training, was faire Vergleiche auf Algorithmenebene unmöglich macht.Um die dringende Notwendigkeit umfassender, realistischer und fairer Testumgebungen für volles Autonomes Fahren (FSD) zu erfüllen, präsentieren wir Bench2Drive, den ersten Benchmark zur Bewertung mehrerer Fähigkeiten von E2E-AD-Systemen im geschlossenen Schleifenverfahren. Die offiziellen Trainingsdaten von Bench2Drive bestehen aus 2 Millionen vollständig annotierten Frames, die aus 13638 kurzen Clips stammen, die gleichmäßig unter 44 interaktiven Szenarien (wie Einbiegen, Überholvorgänge, Umleitung usw.), 23 Wetterbedingungen (sonnig, neblig, regnerisch usw.) und 12 Ortschaften (städtisch, ländlich, universitär usw.) in CARLA v2 verteilt sind. Sein Evaluationsprotokoll verlangt von E2E-AD-Modellen das Bestehen von 44 interaktiven Szenarien unter verschiedenen Standorten und Wetterbedingungen, was insgesamt 220 Strecken ergibt und somit eine umfassende und entkoppelte Bewertung ihrer Fahrfähigkeit in unterschiedlichen Situationen ermöglicht. Wir implementieren state-of-the-art E2E-AD-Modelle und evaluieren sie in Bench2Drive, wodurch wir Erkenntnisse über den aktuellen Stand und zukünftige Richtlinien gewinnen.