3Dオブジェクト検出のためのボクセルトランスフォーマー

本稿では、点群からの3Dオブジェクト検出に向けた新規かつ効果的なボクセルベースのTransformerバックボーンとして、Voxel Transformer(VoTr)を提案する。従来のボクセルベース3D検出器における3D畳み込み型バックボーンは、受容fieldの制限により、オブジェクト認識および局在化に不可欠な大規模な文脈情報を効率的に捉えることができないという課題を抱えていた。本研究では、自己注意(self-attention)機構を導入することで、ボクセル間の長距離依存関係を実現するTransformerベースのアーキテクチャを提案し、この問題を解決する。非空ボクセルは自然にスパースでありながら多数存在するという事実を踏まえ、標準的なTransformerをボクセルに直接適用することは容易ではない。そこで、空のボクセル位置および非空ボクセル位置を効果的に処理できる「スパースボクセルモジュール」と「部分多様体ボクセルモジュール」を提案する。さらに、畳み込み型アーキテクチャと同等の計算負荷を維持しつつ、注意範囲を拡大するため、これらのモジュールにおけるマルチヘッドアテンションに向けた2つのアテンション機構、すなわち「局所アテンション(Local Attention)」と「拡張アテンション(Dilated Attention)」を提案するとともに、マルチヘッドアテンションにおけるクエリ処理を高速化する「Fast Voxel Query」も提案する。VoTrは、一連のスパースおよび部分多様体ボクセルモジュールから構成され、ほとんどのボクセルベース検出器に適用可能である。提案手法のVoTrは、KITTIデータセットおよびWaymo Openデータセットにおいて、畳み込み型ベースラインと比較して一貫した性能向上を示しつつ、計算効率を維持している。