
要約
自動運転において、シーンの意味論的、空間的、時間的構造について効率的に推論することは重要な前提条件です。本稿では、エンドツーエンドの模倣学習モデルでこのような推論を可能にする新しい表現である「ニューラル・アテンション・フィールド(NEAT)」を提案します。NEATは、バードズアイビュー(BEV)シーン座標内の位置をウェイポイントとセマンティクスにマッピングする連続関数であり、中間アテンションマップを使用して高次元の2D画像特徴量を反復的に圧縮し、コンパクトな表現に変換します。これにより、当該モデルは入力の関連する領域に選択的に注目しながら、運転タスクに関係ない情報を無視することが可能となり、画像とBEV表現を効果的に結びつけることができます。新たな評価設定において、悪環境条件や困難なシナリオが含まれる状況下でNEATはいくつかの強力なベースラインを上回り、その訓練データ生成に使用された特権的なCARLA専門家と同等の運転スコアを達成しました。さらに、NEATの中間表現を持つモデルのアテンションマップを可視化することで解釈性が向上します。