2ヶ月前

PETRv2: 多カメラ画像からの3次元認識の統一フレームワーク

Liu, Yingfei ; Yan, Junjie ; Jia, Fan ; Li, Shuailin ; Gao, Aqi ; Wang, Tiancai ; Zhang, Xiangyu ; Sun, Jian
PETRv2: 多カメラ画像からの3次元認識の統一フレームワーク
要約

本稿では、多視点画像からの3次元認識のための一貫したフレームワークであるPETRv2を提案します。PETRを基に、PETRv2は時間モデル化の効果を探求し、前のフレームの時間情報を活用して3次元物体検出の性能向上を目指します。より具体的には、PETRにおける3次元位置埋め込み(3D PE)を時間モデル化のために拡張しています。3D PEは異なるフレーム間での物体位置の時間的な整合性を達成します。さらに、データ適合性を改善するために特徴誘導型位置エンコーダーが導入されています。多タスク学習(例えば、BEVセグメンテーションと3次元車線検出)をサポートするため、PETRv2はタスク固有のクエリを導入することで単純かつ効果的な解決策を提供します。これらのクエリは異なる空間で初期化されます。PETRv2は3次元物体検出、BEVセグメンテーションおよび3次元車線検出において最先端の性能を達成しています。また、PETRフレームワークに対する詳細な堅牢性分析も実施しました。我々はPETRv2が3次元認識分野における強力なベースラインとして機能することを期待しています。コードは\url{https://github.com/megvii-research/PETR}から入手可能です。

PETRv2: 多カメラ画像からの3次元認識の統一フレームワーク | 最新論文 | HyperAI超神経