HyperAIHyperAI

Command Palette

Search for a command to run...

MatrixVT: 多カメラからBEV変換の効率的な手法による3次元認識

Hongyu Zhou Zheng Ge Zeming Li Xiangyu Zhang

概要

本稿では、3次元認識のための効率的なマルチカメラから鳥瞰図(BEV)への変換手法であるMatrixVTを提案します。既存の視点変換手法は、変換効率が低かったり、デバイス固有の演算に依存していたりするため、BEVモデルの広範な応用が妨げられています。これに対し、当手法は畳み込みと行列乗算(MatMul)のみを使用して効率的にBEV特徴量を生成します。具体的には、BEV特徴量を画像特徴量と疎なFeature Transporting Matrix(FTM)のMatMulとして表現することを提案します。その後、Prime Extractionモジュールを導入し、画像特徴量の次元圧縮とFTMの疎性低減を行います。さらに、Ring & Ray Decompositionを提案し、FTMを2つの行列に置き換え、パイプラインを再定式化することで計算量をさらに削減します。既存手法と比較して、MatrixVTは高速かつメモリ使用量が少なく、展開にも適しています。nuScenesベンチマークでの広範な実験により、当手法は非常に効率的でありながら物体検出やマップセグメンテーションタスクにおいて最先端(SOTA)手法と同等の結果を得ることが示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています