2ヶ月前

BEVFormer: 多カメラ画像から時空間トランスフォーマーを用いて鳥瞰図表現を学習する

Li, Zhiqi ; Wang, Wenhai ; Li, Hongyang ; Xie, Enze ; Sima, Chonghao ; Lu, Tong ; Yu, Qiao ; Dai, Jifeng
BEVFormer: 多カメラ画像から時空間トランスフォーマーを用いて鳥瞰図表現を学習する
要約

3D視覚認識タスク、特にマルチカメラ画像に基づく3D検出とマップセグメンテーションは、自動運転システムにとって不可欠です。本研究では、複数の自動運転認識タスクを支援するために、空間時間変換器を使用して統一されたBEV(Bird's Eye View)表現を学習する新しいフレームワークであるBEVFormerを提案します。要するに、BEVFormerは事前に定義された格子形状のBEVクエリを通じて空間と時間を相互作用させることで、空間情報と時間情報を活用します。空間情報の集約のために、各BEVクエリがカメラビュー間の関心領域から空間特徴を抽出するように設計した空間クロスアテンションを開発しました。また、時間情報については、過去のBEV情報を再帰的に融合するための時間自己アテンションを提案しています。当手法はnuScenes \texttt{test}セットにおいてNDS(NuScenes Detection Score)指標で新たな最先端の56.9%を達成し、これは以前の最良手法よりも9.0ポイント高く、LiDARベースの基準モデルと同等の性能を示しています。さらに、当手法が低可視条件での物体速度推定精度と物体検出率(recall)を大幅に向上させることが確認されました。コードは\url{https://github.com/zhiqi-li/BEVFormer}で公開されています。

BEVFormer: 多カメラ画像から時空間トランスフォーマーを用いて鳥瞰図表現を学習する | 最新論文 | HyperAI超神経