9ヶ月前

概要

周囲の交通参加者（traffic agents）の将来の運動を正確に予測することは、自動運転車両の安全性にとって不可欠である。近年、交通シーンにおける複雑な相互作用を捉える能力を備えることから、ベクトル表現に基づくアプローチが運動予測分野で主流となっている。しかし、既存の手法は問題の対称性を無視しており、計算コストが高いため、予測性能を損なうことなくリアルタイムでのマルチエージェント運動予測を実現するという課題に直面している。この課題に対処するため、本研究では高速かつ高精度なマルチエージェント運動予測を実現するための階層型ベクトル変換器（Hierarchical Vector Transformer: HiVT）を提案する。本手法は、問題を「局所的文脈の抽出」と「グローバルな相互作用モデリング」という2段階に分解することで、シーン内の多数のエージェントを効果的かつ効率的にモデル化できる。さらに、並進不変なシーン表現と回転不変な空間学習モジュールを提案し、シーンの幾何学的変換に対して堅牢な特徴抽出を可能にすることで、1回の順伝播（forward pass）で複数エージェントの正確な予測を実現できる。実験の結果、HiVTはArgoverse運動予測ベンチマークにおいて最先端の性能を達成しつつ、小さなモデルサイズで高速なマルチエージェント運動予測が可能であることが示された。

ソースPDF コードを表示