
要約
視覚ベースの都市走行は極めて困難である。自律システムは、世界を認識し、それに応じて行動する能力を学習する必要がある。本研究では、この挑戦的な学習問題を二段階に分解することで、簡素化可能であることを示す。まず、特権情報(privileged information)にアクセス可能なエージェントを訓練する。この特権エージェントは、環境の真のレイアウトやすべての交通参加者の正確な位置を観測することで、いわば「不正」を行う。第二段階では、この特権エージェントが教師として機能し、純粋に視覚情報に基づくセンサモーターエージェントを学習させる。得られるセンサモーターエージェントは、いかなる特権情報にもアクセスできず、不正行為も行わない。この二段階訓練プロセスは直感に反するように思えるが、我々はその重要かつ実証可能な利点を分析し、検証している。本手法を用いて、CARLAベンチマークおよび最近のNoCrashベンチマークにおいて、従来の最先端技術を大幅に上回る視覚ベースの自律走行システムを実現した。本アプローチにより、CARLAベンチマークのすべてのタスクで初めて100%の成功確率を達成し、NoCrashベンチマークにおいて新たな記録を樹立するとともに、従来の最先端技術と比較して違反頻度を1桁低減した。本研究の概要動画は、以下のリンクからご覧いただけます:https://youtu.be/u9ZCxxD-UUw