19日前

PVT:ポイントボクセル変換器によるポイントクラウド学習

Cheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu
PVT:ポイントボクセル変換器によるポイントクラウド学習
要約

最近開発された純粋なTransformerアーキテクチャは、畳み込みニューラルネットワーク(CNN)と比較して、点群学習ベンチマークにおいて有望な精度を達成している。しかし、既存の点群Transformerは、不規則なデータの構造化に多大な計算時間を要するため、計算コストが非常に高くなるという課題を抱えている。この問題を解決するために、我々は非空ボクセルから粗粒度の局所特徴を効率的に集めるための「スパースウィンドウアテンション(Sparse Window Attention: SWA)」モジュールを提案する。このモジュールは、不規則データの構造化処理や無効な空ボクセルの計算を回避するだけでなく、ボクセル解像度に対して線形の計算複雑度を実現する。一方で、グローバル形状に関する細粒度の特徴を抽出するため、物体の剛体変換に対してよりロバストな自己アテンションの変種である「相対アテンション(Relative Attention: RA)」モジュールを導入する。SWAとRAを統合した共同フレームワークとして、点群学習に適したニューラルアーキテクチャ「PVT(Point-Voxel Transformer)」を構築した。従来のTransformerベースおよびアテンションベースのモデルと比較して、本手法は分類ベンチマークで94.0%というトップクラスの精度を達成し、平均で10倍の推論速度向上を実現した。さらに、広範な実験により、PVTが部品分類および意味セグメンテーションベンチマークにおいても有効性を示しており、それぞれ86.6%および69.2%のmIoUを達成した。