
要約
自律走行における補完的センサーからの表現をどのように統合すべきかという問題について、幾何学ベースのセンサー融合は、物体検出や運動予測といった認識タスクにおいて大きな可能性を示している。しかし、実際の運転タスクにおいては、3次元シーンのグローバルな文脈が重要である。たとえば、交通信号の状態が変化した場合、その信号から幾何学的に離れた位置にある車両の挙動にも影響を及ぼすことがある。このように、幾何学的な情報だけでは、エンドツーエンドの運転モデルにおける表現の有効な融合には不十分である可能性がある。本研究では、動的エージェントが高密度に存在し、複雑なシナリオが発生する状況下で、従来のセンサー融合手法に基づく模倣学習ポリシーが性能を発揮できないことを実証した。特に、制御されていない交差点において複数方向から接近する交通流を扱うような、グローバルな文脈理解を要する状況ではその傾向が顕著である。したがって、本研究では、画像とLiDAR表現をアテンション機構を用いて統合する新規のマルチモーダル融合Transformer、TransFuserを提案する。我々は、CARLA都市走行シミュレータを用いて、複雑なシナリオを含む都市環境において、本手法の有効性を実験的に検証した。その結果、従来の幾何学ベースの融合手法と比較して、衝突件数を76%削減しつつ、最先端の運転性能を達成することに成功した。