LiDAR 기반 팔레오틱 세그멘테이션을 위한 동적 시프팅 네트워크

자율 주행 기술의 급속한 발전에 따라 센서 시스템에 보다 포괄적인 3차원 인지 능력을 부여하는 것이 점점 더 중요해지고 있다. 그러나 기존 연구들은 라이다(LiDAR) 센서로부터 객체(예: 자동차, 보행자) 또는 장면(예: 나무, 건물) 중 하나만을 분석하는 데 집중해 왔다. 본 연구에서는 이러한 새로운 도전 과제에 대응하여 라이다 기반의 팬옵틱 세그멘테이션(panoptic segmentation)을 다루며, 객체와 장면을 통합된 방식으로 동시에 분석하는 것을 목표로 한다. 이 새로운 과제에 대한 초기 시도 중 하나로서, 우리는 포인트 클라우드 환경에서 효과적인 팬옵틱 세그멘테이션 프레임워크로서의 역할을 수행하는 동적 이동 네트워크(Dynamic Shifting Network, DS-Net)를 제안한다. 특히 DS-Net은 다음과 같은 세 가지 매력적인 특성을 지닌다. 1) 강력한 백본 설계: DS-Net은 라이다 포인트 클라우드에 특화된 실린더 컨볼루션(cylinder convolution)을 채택하여, 세분적 분석 브랜치와 인스턴스 분석 브랜치가 공유하는 특징을 추출한다. 이 브랜치들은 하향식 클러스터링 방식으로 작동한다. 2) 복잡한 포인트 분포를 위한 동적 이동 기법: BFS나 DBSCAN과 같은 일반적으로 사용되는 클러스터링 알고리즘은 비균일한 포인트 클라우드 분포와 다양한 인스턴스 크기를 갖는 자율 주행 환경을 효과적으로 처리할 수 없다는 점을 관찰하였다. 이를 해결하기 위해, 서로 다른 인스턴스에 대해 실시간으로 커널 함수를 적응시키는 효율적인 학습 가능한 클러스터링 모듈인 '동적 이동(Dynamic Shifting)'을 제안한다. 3) 합의 기반 융합: 마지막으로, 세분적 예측과 인스턴스 예측 간의 불일치를 처리하기 위해 합의 기반 융합(consensus-driven fusion) 기법을 도입한다. 라이다 기반 팬옵틱 세그멘테이션의 성능을 포괄적으로 평가하기 위해, SemanticKITTI와 nuScenes 두 개의 대규모 자율 주행 라이다 데이터셋에서 벤치마크를 구축하고 정제하였다. 광범위한 실험을 통해 제안하는 DS-Net이 기존 최고 수준의 방법들에 비해 뛰어난 정확도를 달성함을 입증하였다. 특히 SemanticKITTI 공개 리더보드에서 1위를 기록하며, PQ 지표 기준으로 2위를 2.6% 이상 앞서는 성과를 거두었다.