11일 전

Swin3D: 3D 실내 장면 이해를 위한 사전 훈련된 Transformer 백본

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo
Swin3D: 3D 실내 장면 이해를 위한 사전 훈련된 Transformer 백본
초록

2D 비전 및 자연어 처리 작업에서 사전 훈련된 백본에 대한 미세 조정(fine-tuning) 기법은 특화된 네트워크보다 우수한 성능을 보여 왔다. 본 연구에서는 3D 실내 장면 이해를 위한 사전 훈련된 3D 백본 모델인 {\SST}을 제안한다. 우리는 효율적인 자기 주의(self-attention)를 희소 복셀(sparse voxels)에 적용할 수 있는 3D Swin 트랜스포머를 백본 네트워크로 설계하였으며, 선형 메모리 복잡도를 갖추어 대규모 모델 및 데이터셋에 대한 확장성을 보장한다. 또한, 점 신호(point signals)의 다양한 비정형성을 효과적으로 포착하기 위해 일반화된 문맥 기반 상대적 위치 임베딩(scheme)을 도입하였다. 우리는 대규모 합성 데이터셋인 Structured3D를 기반으로 대규모 {\SST} 모델을 사전 훈련하였으며, 이 데이터셋은 ScanNet 데이터셋보다 약 10배 이상 크다. 합성 데이터셋에서 사전 훈련된 본 모델은 실제 3D 점 데이터셋에 대한 하류 작업인 분할(segmentation)과 탐지(detection)에 잘 일반화되며, 기존 최상의 방법들을 상회하는 성능을 보였다. 구체적으로 S3DIS Area5와 6-폴드 세분화에서는 각각 +2.3 mIoU와 +2.2 mIoU의 성능 향상을 기록하였고, ScanNet 분할(val)에서는 +1.8 mIoU, ScanNet 탐지에서는 +1.9 [email protected], S3DIS 탐지에서는 +8.1 [email protected]의 개선을 달성하였다. 다양한 체계적인 추상화(ablation) 실험을 통해 제안하는 방법이 확장성, 일반성 및 우수한 성능을 동시에 제공함을 입증하였다. 코드 및 모델은 https://github.com/microsoft/Swin3D 에 공개되어 있다.

Swin3D: 3D 실내 장면 이해를 위한 사전 훈련된 Transformer 백본 | 최신 연구 논문 | HyperAI초신경