2ヶ月前

TBP-Former: 時間的な俯瞰ピラミッドの学習によるビジョン中心の自動運転における統合的な認識と予測

Fang, Shaoheng ; Wang, Zi ; Zhong, Yiqi ; Ge, Junhao ; Chen, Siheng ; Wang, Yanfeng
TBP-Former: 時間的な俯瞰ピラミッドの学習によるビジョン中心の自動運転における統合的な認識と予測
要約

視覚中心的な共同知覚と予測(Perception and Prediction: PnP)は、自動運転研究における新興トレンドとなっています。この技術は、周囲環境の交通参加者の将来状態を生のRGB画像から予測します。しかし、複数のカメラ視点や時間戳印で得られた特徴量を同期させることが依然として重要な課題であり、これは不可避な幾何学的歪みにより難しくなります。さらに、これらの空間時間特徴量を効果的に活用することも困難です。本稿では、この問題に対処するために、視覚中心的なPnP用に時間鳥瞰図ピラミッドトランスフォーマー(Temporal Bird's-Eye-View Pyramid Transformer: TBP-Former)を提案します。このフレームワークには2つの革新的な設計が含まれています。まず、姿勢同期型BEVエンコーダーを提案し、任意のカメラ姿勢と任意の時間での生画像入力を共有された同期したBEV空間にマッピングすることで、より良い空間時間同期を実現します。次に、空間時間ピラミッドトランスフォーマーを導入し、多尺度BEV特徴量を包括的に抽出し、空間時間事前情報の支援のもとで将来のBEV状態を予測します。nuScenesデータセットを用いた広範な実験結果は、我々が提案するフレームワークが全体的に最先端の視覚ベースの予測手法よりも優れていることを示しています。

TBP-Former: 時間的な俯瞰ピラミッドの学習によるビジョン中心の自動運転における統合的な認識と予測 | 最新論文 | HyperAI超神経