16日前

Point Transformer V3：よりシンプルに、より高速に、より強力に

Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao

要約

本論文は、アテンション機構内での革新を追求するものではない。むしろ、点群処理の文脈において、精度と効率の既存のトレードオフを克服することに焦点を当てており、スケーリングの力を活用している。近年の3D大規模表現学習の進展から着想を得て、モデル性能は複雑な設計よりもスケーリングの影響をより大きく受けることを認識した。したがって、本研究では、スケーリング後の全体的な性能に微小な影響しか与えない特定の機構の精度を犠牲にしてでも、単純さと効率を最優先するPoint Transformer V3（PTv3）を提案する。例えば、KNNによる高精度な近傍探索を、特定のパターンで整列された点群に対して効率的なシリアライズド近傍マッピングに置き換えることで、計算コストを大幅に削減している。この原則により、受容 field を16点から1024点まで拡大しつつも、効率性を維持できている（前バージョンであるPTv2と比較して処理速度が3倍、メモリ効率が10倍向上）。PTv3は、屋内および屋外の両方のシナリオにまたがる20以上の下流タスクにおいて、最先端の性能を達成した。さらに、複数のデータセットを統合した共同学習を適用することで、その性能はさらなる向上を遂げている。