11日前

CAPE:マルチビュー3Dオブジェクト検出のためのカメラ視点位置埋め込み

Kaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding, Jingdong Wang, Xiang Bai
CAPE:マルチビュー3Dオブジェクト検出のためのカメラ視点位置埋め込み
要約

本稿では、マルチビュー画像からの3Dオブジェクト検出という問題に取り組む。現在のクエリベースの手法は、画像と3D空間間の幾何学的対応関係を学習するために、グローバルな3D位置埋め込み(Position Embedding: PE)に依存している。我々は、2D画像特徴量をグローバルな3D PEと直接相互作用させることで、カメラの外部パラメータ(extrinsics)の変動に起因する視点変換の学習難易度が高まると主張する。そこで、カメラ視点位置埋め込み(CAmera view Position Embedding: CAPE)を基盤とする新たな手法を提案する。本手法では、グローバル座標系ではなく、局所的なカメラ視点座標系の下で3D位置埋め込みを構築することで、カメラの外部パラメータの符号化を回避する。さらに、前フレームのオブジェクトクエリを活用し、エゴモーション(ego-motion)を符号化することで、時間的モデリングを拡張し、3Dオブジェクト検出の性能向上を図っている。CAPEは、LiDARを用いない手法の中でnuScenesデータセットにおいて最先端の性能(NDS: 61.0%、mAP: 52.5%)を達成した。コードおよびモデルは、\href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} および \href{https://github.com/kaixinbear/CAPE}{PyTorch実装}にて公開されている。

CAPE:マルチビュー3Dオブジェクト検出のためのカメラ視点位置埋め込み | 最新論文 | HyperAI超神経