11일 전

OctFormer: 3D 포인트 클라우드를 위한 옥트리 기반 트랜스포머

Peng-Shuai Wang
OctFormer: 3D 포인트 클라우드를 위한 옥트리 기반 트랜스포머
초록

3차원 포인트 클라우드 학습을 위한 오크트리 기반 트랜스포머, 즉 OctFormer을 제안한다. OctFormer은 3차원 포인트 클라우드 분할 및 객체 탐지에 있어 일반적이고 효과적인 기본 구조(백본)로 활용할 수 있을 뿐만 아니라, 선형 복잡도를 가지며 대규모 포인트 클라우드에 대해 확장 가능한 특성을 갖는다. 포인트 클라우드에 트랜스포머를 적용할 때의 핵심 과제는 주목(attentions)의 이차 복잡도로 인해 과도하게 증가하는 계산 부담을 줄이는 것이다. 이를 해결하기 위해 기존 연구들은 포인트 클라우드를 겹치지 않는 윈도우로 나누고 각 로컬 윈도우 내에서 주목을 제한하는 방식을 사용한다. 그러나 각 윈도우 내 포인트 수가 크게 달라지며, 이로 인해 GPU 상의 효율적인 실행이 방해된다. 본 연구에서는 로컬 윈도우의 형상 변화에 대해 주목이 강건함을 관찰하고, 고정된 수의 포인트를 포함하는 로컬 윈도우로 포인트 클라우드를 분할할 수 있도록 오크트리의 정렬된 셔플된 키를 활용하는 새로운 오크트리 주목 기법을 제안한다. 또한, 수용 영역을 더 넓히기 위해 확장된 오크트리 주목(dilated octree attention)을 도입한다. 제안하는 오크트리 주목은 오픈소스 라이브러리를 활용해 10줄의 코드로 구현 가능하며, 포인트 수가 20만을 초과할 경우 기존 포인트 클라우드 주목 기법보다 17배 빠르게 동작한다. 오크트리 주목을 기반으로 구축된 OctFormer은 쉽게 확장 가능하며, 다양한 3차원 분할 및 탐지 벤치마크에서 최신 기술 수준의 성능을 달성하여, 이전의 희소 복셀 기반 CNN과 포인트 클라우드 트랜스포머보다 효율성과 효과성 측면에서 모두 우수한 성능을 보인다. 특히 도전적인 ScanNet200 데이터셋에서, OctFormer은 희소 복셀 기반 CNN보다 mIoU에서 7.3점 높은 성능을 기록했다. 본 연구의 코드와 학습된 모델은 https://wang-ps.github.io/octformer 에서 공개되어 있다.

OctFormer: 3D 포인트 클라우드를 위한 옥트리 기반 트랜스포머 | 최신 연구 논문 | HyperAI초신경