
초록
자기주의(자기주목) 네트워크는 자연어 처리 분야에서 혁신을 이끌었으며, 이미지 분류 및 객체 탐지와 같은 이미지 분석 과제에서도 놀라운 성과를 거두고 있다. 이러한 성공에 영감을 받아, 본 연구는 자기주의 네트워크를 3차원 점군(point cloud) 처리에 적용하는 것에 대해 탐구한다. 우리는 점군에 적합한 자기주의 레이어를 설계하고, 이를 바탕으로 의미 있는 장면 세분화(semantic scene segmentation), 객체 부위 세분화(object part segmentation), 객체 분류(object classification) 등의 과제를 위한 자기주의 네트워크를 구축한다. 제안하는 Point Transformer 아키텍처는 다양한 분야와 과제에서 기존의 최선의 방법을 개선한다. 예를 들어, 대규모 의미적 장면 세분화를 위한 도전적인 S3DIS 데이터셋에서, Point Transformer는 Area 5에서 mIoU 70.4%를 달성하여 기존 최강 모델보다 3.3%p 높은 성능을 보이며, 처음으로 mIoU 70%를 넘는 성과를 기록하였다.