Das Lernen durch Betrug

Die visionbasierte städtische Fahrzeugsteuerung ist herausfordernd. Das autonome System muss lernen, die Welt wahrzunehmen und darin zu handeln. Wir zeigen, dass dieses anspruchsvolle Lernproblem durch eine Zerlegung in zwei Stufen vereinfacht werden kann. Zunächst trainieren wir einen Agenten, der Zugang zu privilegierten Informationen hat. Dieser privilegierte Agent „cheatet“ dadurch, dass er die wahre Umgebungslayout und die Positionen aller Verkehrsteilnehmer beobachten kann. In der zweiten Stufe fungiert der privilegierte Agent als Lehrer, der einen rein visionbasierten sensorimotorischen Agenten trainiert. Der resultierende sensorimotorische Agent hat keinen Zugriff auf irgendeine privilegierte Information und „cheatet“ nicht. Diese zweistufige Trainingsprozedur wirkt zunächst kontraintuitiv, bietet aber eine Reihe wichtiger Vorteile, die wir analysieren und empirisch nachweisen. Wir nutzen den vorgestellten Ansatz, um ein visionbasiertes autonomes Fahrzeugsystem zu trainieren, das die derzeitige State-of-the-Art-Leistung auf der CARLA-Benchmark und der jüngsten NoCrash-Benchmark erheblich übertrifft. Unser Ansatz erreicht erstmals eine Erfolgsrate von 100 % bei allen Aufgaben der ursprünglichen CARLA-Benchmark, stellt einen neuen Rekord auf der NoCrash-Benchmark auf und reduziert die Häufigkeit von Verstößen im Vergleich zur vorherigen State-of-the-Art um eine Größenordnung. Für das Video, das diese Arbeit zusammenfasst, siehe https://youtu.be/u9ZCxxD-UUw