GPSFormer: 全域認識と局所構造適合を基にした点群理解用トランスフォーマー

点群理解の前学習手法において大きな進歩が見られますが、外部データに依存せずに不規則な点群から複雑な形状情報を直接抽出することは依然として大きな課題となっています。この問題に対処するため、我々は GPSFormer を提案します。これは革新的な「Global Perception and Local Structure Fitting-based Transformer(全局感知と局所構造適合に基づくトランスフォーマー)」であり、点群から詳細な形状情報を高い精度で学習することができます。GPSFormer の中心的な要素は、Global Perception Module (GPM) と Local Structure Fitting Convolution (LSFConv) です。具体的には、GPM は Adaptive Deformable Graph Convolution (ADGConv) を利用して特徴空間内の類似特徴間の短距離依存関係を識別し、Multi-Head Attention (MHA) を用いて特徴空間内のすべての位置間の長距離依存関係を学習することで、文脈表現の柔軟な学習を可能にします。テイラー級数に着想を得て、我々は LSFConv を設計しました。このモジュールは、明示的に符号化された局所幾何構造から低次元基本情報と高次元精密情報を両方学習します。GPM と LSFConv を基本的な構成要素として統合することで、我々は点群の全局構造と局所構造を効果的に捉える最先端のトランスフォーマーである GPSFormer を構築しました。広範囲にわたる実験により、GPSFormer の有効性が形状分類、部位セグメンテーション、および少量学習という3つの点群タスクで確認されています。GPSFormer のコードは \url{https://github.com/changshuowang/GPSFormer} で公開されています。