
要約
私たちは、特権的な教師エージェントの監督のもとで、センサモータ型学生エージェントが効果的に運転を学ぶための新しい知識蒸留フレームワークを提案します。現在のセンサモータ型エージェントの知識蒸留手法は、学生が学習した運転行動が最適でない傾向があり、これは両エージェント間の入力、モデル容量、および最適化プロセスの固有の違いによるものだと仮説を立てています。私たちはこれらの制限に対処し、センサモータ型エージェントとその特権的な教師とのギャップを埋める新しい蒸留スキームを開発しました。私たちの主要な洞察は、学生が教師の特権的なバードアイビュー(BEV)空間に自身の入力特徴量を合わせるように設計することです。これにより、学生は内部表現学習における教師からの直接的な監督を受けられるようになります。困難なセンサモータ型学習タスクを支援するために、学生モデルは様々な補助的な監督を通じて自己ペースでのコーチングメカニズムによって最適化されます。さらに、私たちはCARLAにおいて過去の特権的エージェントを超える高容量の模倣学習による特権的エージェントを提案し、学生が安全な運転行動を学ぶことを保証します。我々が提案するセンサモータ型エージェントは、LiDARや履歴観測データ、モデルアンサンブル、オンポリシー・データ集積、強化学習などを必要とせずに、CARLAにおいて現行モデルよりも20.6%以上高い運転スコアを達成する堅牢な画像ベースの行動複製エージェントとなります。