OA-CNNs: 3차원 세분화를 위한 옴니-적응형 희소 CNN

2020년대 들어 3D 인식 기술의 급속한 발전은 포인트 클라우드 트랜스포머(Point Cloud Transformers)의 등장과 함께 시작되었다. 이 모델들은 짧은 시간 내에 희소 CNN(sparse CNNs)을 압도하며, 특히 3D 세분화(semantic segmentation) 분야에서 최신 기술(state-of-the-art) 수준에 이르렀다. 그러나 희소 CNN들은 효율성과 적용의 용이성이라는 중요한 장점을 지녀 여전히 가치 있는 네트워크로 남아 있다. 본 연구에서는 희소 CNN의 설계적 차이점을 재검토하고, 그 성능의 한계를 탐구한다. 그 결과, 성능 차이의 핵심 요인은 적응성(adaptivity)임을 발견하였다. 구체적으로, 공간적 적응성 반응 영역(adaptive receptive fields)과 적응적 관계(adaptive relation)라는 두 가지 핵심 구성 요소를 제안하여 이 격차를 메우는 데 성공하였다. 이러한 탐구 과정을 통해 경량 모듈을 통합하여 희소 CNN의 적응성을 극대화할 수 있는 '오미-적응형 3D CNN(Omni-Adaptive 3D CNNs, OA-CNNs)'라는 네트워크 가족을 개발하였다. 자체 주의(self-attention) 모듈 없이도 OA-CNNs는 실내 및 실외 환경에서 모두 포인트 트랜스포머를 뛰어넘는 정확도를 달성하였으며, 지연(latency)과 메모리 사용량 측면에서도 훨씬 우수한 성능을 보였다. 특히, ScanNet v2, nuScenes, SemanticKITTI 검증 벤치마크에서 각각 76.1%, 78.9%, 70.6%의 mIoU(major Intersection over Union)를 기록하면서, 트랜스포머 기반 모델 대비 최대 5배 빠른 속도를 유지하였다. 이 결과는 순수한 희소 CNN이 트랜스포머 기반 네트워크를 능가할 수 있는 잠재력을 입증하며, 희소 CNN의 재도약을 시사한다.