11일 전
포인트 트랜스포머 V3: 더 간단하고, 더 빠르고, 더 강력하다
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao

초록
본 논문은 주의 메커니즘 내에서 혁신을 추구하기 위한 것이 아니다. 대신, 포인트 클라우드 처리 환경에서 정확도와 효율성 사이의 기존 상충 관계를 극복하는 데 초점을 맞추며, 규모의 힘을 활용한다. 최근 3차원 대규모 표현 학습 분야의 발전에서 영감을 받아, 모델 성능은 복잡한 설계보다 규모에 더 크게 영향을 받음을 인지하게 되었다. 따라서 우리는 단순성과 효율성을 우선시하는 Point Transformer V3(PTv3)를 제안한다. 특히, 확장 후 전체 성능에 미치는 영향이 미미한 특정 메커니즘의 정밀도를 희생함으로써, 예를 들어 정밀한 이웃 탐색을 KNN으로 대체하는 대신 특정 패턴으로 정렬된 포인트 클라우드에 대해 효율적인 직렬화된 이웃 매핑을 사용함으로써 성능을 극대화한다. 이러한 원칙은 큰 규모의 확장 가능성을 가능하게 하며, 수용 영역을 16점에서 1024점으로 확장하면서도 효율성을 유지한다(전신인 PTv2 대비 처리 속도 3배 증가, 메모리 효율성 10배 향상). PTv3는 실내 및 실외 시나리오를 아우르는 20개 이상의 하류 작업에서 최신 기준(SOTA) 성능을 달성하였으며, 다수 데이터셋 공동 학습을 통해 추가적으로 성능이 더욱 향상되었다.