2ヶ月前
MatrixVT: 多カメラからBEV変換の効率的な手法による3次元認識
Zhou, Hongyu ; Ge, Zheng ; Li, Zeming ; Zhang, Xiangyu

要約
本稿では、3次元認識のための効率的なマルチカメラから鳥瞰図(BEV)への変換手法であるMatrixVTを提案します。既存の視点変換手法は、変換効率が低かったり、デバイス固有の演算に依存していたりするため、BEVモデルの広範な応用が妨げられています。これに対し、当手法は畳み込みと行列乗算(MatMul)のみを使用して効率的にBEV特徴量を生成します。具体的には、BEV特徴量を画像特徴量と疎なFeature Transporting Matrix(FTM)のMatMulとして表現することを提案します。その後、Prime Extractionモジュールを導入し、画像特徴量の次元圧縮とFTMの疎性低減を行います。さらに、Ring & Ray Decompositionを提案し、FTMを2つの行列に置き換え、パイプラインを再定式化することで計算量をさらに削減します。既存手法と比較して、MatrixVTは高速かつメモリ使用量が少なく、展開にも適しています。nuScenesベンチマークでの広範な実験により、当手法は非常に効率的でありながら物体検出やマップセグメンテーションタスクにおいて最先端(SOTA)手法と同等の結果を得ることが示されています。