HyperAIHyperAI

Command Palette

Search for a command to run...

3Dオブジェクト検出のためのボクセルトランスフォーマー

Jiageng Mao Yujing Xue Minzhe Niu Haoyue Bai Jiashi Feng Xiaodan Liang Hang Xu Chunjing Xu

概要

本稿では、点群からの3Dオブジェクト検出に向けた新規かつ効果的なボクセルベースのTransformerバックボーンとして、Voxel Transformer(VoTr)を提案する。従来のボクセルベース3D検出器における3D畳み込み型バックボーンは、受容fieldの制限により、オブジェクト認識および局在化に不可欠な大規模な文脈情報を効率的に捉えることができないという課題を抱えていた。本研究では、自己注意(self-attention)機構を導入することで、ボクセル間の長距離依存関係を実現するTransformerベースのアーキテクチャを提案し、この問題を解決する。非空ボクセルは自然にスパースでありながら多数存在するという事実を踏まえ、標準的なTransformerをボクセルに直接適用することは容易ではない。そこで、空のボクセル位置および非空ボクセル位置を効果的に処理できる「スパースボクセルモジュール」と「部分多様体ボクセルモジュール」を提案する。さらに、畳み込み型アーキテクチャと同等の計算負荷を維持しつつ、注意範囲を拡大するため、これらのモジュールにおけるマルチヘッドアテンションに向けた2つのアテンション機構、すなわち「局所アテンション(Local Attention)」と「拡張アテンション(Dilated Attention)」を提案するとともに、マルチヘッドアテンションにおけるクエリ処理を高速化する「Fast Voxel Query」も提案する。VoTrは、一連のスパースおよび部分多様体ボクセルモジュールから構成され、ほとんどのボクセルベース検出器に適用可能である。提案手法のVoTrは、KITTIデータセットおよびWaymo Openデータセットにおいて、畳み込み型ベースラインと比較して一貫した性能向上を示しつつ、計算効率を維持している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています