11日前

BEVFormer v2:視点監督を用いた現代的画像バックボーンの鳥瞰図認識への適応

Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai
BEVFormer v2:視点監督を用いた現代的画像バックボーンの鳥瞰図認識への適応
要約

本稿では、視点空間における教師信号(perspective supervision)を導入した新しい鳥瞰図視点(Bird's-Eye-View, BEV)検出器を提案する。この手法は収束が速く、現代の画像バックボーンとの相性が良好である。既存の最先端BEV検出器は、VoVNetなど特定の深度事前学習済みバックボーンに依存していることが多く、急速に進化する画像バックボーンとBEV検出器との連携を阻害している。この課題を解決するため、BEV検出器の最適化を容易にするために、視点空間における教師信号を導入することを重視した。具体的には、2段階型BEV検出器を提案し、視点ヘッドから得られた候補領域を鳥瞰図視点ヘッドに供給して最終的な予測を行う。提案手法の有効性を検証するため、教師信号の形式および提案手法の汎用性に着目した広範なアブレーションスタディを実施した。本手法は、従来型および現代的な多様な画像バックボーンを用いて検証され、大規模なnuScenesデータセットにおいて新たなSOTA(SoTA)成績を達成した。コードは近日中に公開予定である。

BEVFormer v2:視点監督を用いた現代的画像バックボーンの鳥瞰図認識への適応 | 最新論文 | HyperAI超神経