11日前
DSVT:回転集合を用いた動的スパースボクセルトランスフォーマー
Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang

要約
3D認識における疎な点群を効率的に処理しつつ、実装に優れた3Dバックボーンの設計は、根本的な課題の一つである。従来のカスタマイズされた疎な畳み込みと比較して、Transformerにおけるアテンション機構は、長距離依存関係を柔軟にモデル化できる点で適しており、実世界の応用においても容易にデプロイ可能である。しかしながら、点群が疎であるという特性上、標準的なTransformerを疎な点群に直接適用することは容易ではない。本論文では、屋外3D認識を対象とした単一ステップウィンドウベースのボクセルTransformerバックボーンである「Dynamic Sparse Voxel Transformer(DSVT)」を提案する。疎な点群を並列に効率的に処理するため、各ウィンドウ内の局所領域をその疎さに応じて動的に分割し、すべての領域の特徴量を完全に並列に計算する「Dynamic Sparse Window Attention」を提案する。また、集合間の接続を可能にするために、連続する自己アテンション層で二つの分割構成を交互に切り替える「回転型セット分割戦略」を設計した。さらに、効果的なダウンサンプリングと幾何情報の優れた符号化を実現するため、カスタムCUDA操作を一切使用せずに、アテンション形式の3Dプーリングモジュールを提案する。本モデルは、幅広い3D認識タスクにおいて最先端の性能を達成している。特に重要なのは、DSVTがTensorRTを用いて容易にデプロイ可能であり、リアルタイムの推論速度(27Hz)を実現できることである。コードは、\url{https://github.com/Haiyang-W/DSVT} にて公開される予定である。