11日前

Point Transformer V2：グループ化ベクトルアテンションとパーティションベースのプーリング

Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao

要約

3次元点群理解におけるTransformerアーキテクチャの先駆的取り組みとして、Point Transformerは複数の高い競争力を有するベンチマークにおいて優れた成果を達成している。本研究では、Point Transformerの限界を分析し、従来の手法の課題を克服する新たな設計を採用した、強力かつ効率的なPoint Transformer V2モデルを提案する。特に、従来のベクトルアテンションよりも効果的な「グループ化ベクトルアテンション（group vector attention）」を初めて提案する。可学習な重み符号化とマルチヘッドアテンションの双方の利点を活かしつつ、新規の「グループ化重み符号化層（grouped weight encoding layer）」を導入することで、高効率なグループ化ベクトルアテンションの実装を実現した。また、位置情報のアテンションへの影響を強化するため、追加の位置符号化乗数（position encoding multiplier）を導入している。さらに、空間的な整合性を向上させつつ、より効率的なサンプリングを可能にする、新規かつ軽量なパーティションベースのプーリング手法を設計した。広範な実験により、本モデルが前世代モデルを上回る性能を発揮し、ScanNet v2およびS3DISにおける3次元点群セグメンテーション、ModelNet40における3次元点群分類といった複数の困難な3次元点群理解ベンチマークで最先端（SOTA）の結果を達成したことが確認された。本研究のコードは、https://github.com/Gofinge/PointTransformerV2 にて公開される予定である。