11 天前
Point Transformer V3:更简单、更快速、更强大
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao

摘要
本文并非旨在对注意力机制本身进行创新,而是聚焦于解决点云处理领域中精度与效率之间的固有权衡问题,充分借助规模带来的优势。受近期三维大规模表征学习进展的启发,我们认识到,模型性能在大规模条件下更多地取决于规模本身,而非复杂的结构设计。因此,我们提出 Point Transformer V3(PTv3),在模型设计上优先考虑简洁性与高效性,对那些在大规模扩展后对整体性能影响较小的机制(例如,用基于特定模式组织的点云高效串行邻域映射替代精确的KNN邻域搜索)进行简化。这一设计理念使得模型具备显著的可扩展性:感受野从16个点扩展至1024个点,同时保持高效运行——相较于前代模型PTv2,处理速度提升3倍,内存效率提高10倍。PTv3在超过20项下游任务上取得了当前最优性能,涵盖室内与室外等多种场景。通过引入多数据集联合训练进一步优化,PTv3的性能再上新台阶。