3달 전
로컬 패치를 넘어서: 3D 포인트 클라우드 토큰화를 통한 자기주의 주의 강화를 통한 글로벌-로컬 상호작용 보존
{X.X. Zhu, M.M. Fraz, S.A. Khan, M. Shahzad, M.Q. Khan}
초록
최근 Transformer 기반 아키텍처는 3D 객체 형태 분류 및 의미 분할과 같은 다양한 포인트 클라우드 이해 작업에서 뛰어난 성능을 보여주고 있다. 특히 이는 장거리 종속성을 효과적으로 포착할 수 있는 자기 주의(self-attention) 메커니즘 덕분이다. 그러나 기존의 방법들은 이 메커니즘의 이차적 메모리 복잡도로 인해 지역적 패치 내에서만 작동하도록 제한되어 왔다. 이러한 제약은 초기 레이어에서 비국소성 정보가 손실되면서 모델의 일반화 능력과 확장 가능성을 저해한다. 이 문제를 해결하기 위해, 우리는 지역 패치 내에서 정보를 집계하면서도 장거리 종속성을 효과적으로 포착할 수 있는 윈도우 기반 Transformer 아키텍처를 제안한다. 본 방법은 각 윈도우를 전체 장면의 대표적인 하위 집합인 글로벌 포인트 클라우드 토큰 집단과 상호작용시키고, 3D 방향성 기울기 히스토그램(HOG) 기술을 활용하여 지역 기하 구조를 보강함으로써 이를 달성한다. S3DIS 의미 분할, ShapeNetPart 부품 분할, ScanObjectNN 3D 객체 분류 등 다양한 작업에서 수행한 실험을 통해, 제안 모델이 S3DIS 의미 분할에서 mIoU 기준 +1.67% 향상, ShapeNetPart 부품 분할에서는 인스턴스 mIoU 기준 +1.03% 향상하며, ScanObjectNN 3D 객체 분류에서도 경쟁력 있는 성능을 보임을 입증하였다. 코드 및 학습된 모델은 공개될 예정이다.