
要約
私たちは、事前に記録された運転ログからモデルベースのアプローチを用いて対話型のビジョンベース運転ポリシーを学習します。世界の前方モデルが、任意の潜在的な運転軌跡の結果を予測する運転ポリシーを監督します。事前に記録されたログからの学習を支援するために、世界はレール上にあると仮定します。つまり、エージェントやその行動が環境に影響を与えないという意味です。この仮定により、学習問題が大幅に単純化され、動態が非反応的な世界モデルと自己車両の低次元でコンパクトな前方モデルに分解されます。当方の手法は、ベルマン方程式のテーブル形式動的計画法評価を使用して各訓練軌跡に対して行動価値を計算し、これらの行動価値が最終的なビジョンベース運転ポリシーを監督します。世界がレール上にあるという仮定にもかかわらず、最終的な運転ポリシーは動的かつ反応的な世界でも良好に動作します。執筆時点では、当方の手法はCARLA リーダーボードで首位に立っており、25% 高い運転スコアを得つつ、使用データ量は40分の1となっています。また、当方の手法はProcGenベンチマークにおけるナビゲーションタスクにおいて最先端のモデルフリー強化学習技術よりも一桁少ないサンプル効率性を持っています。