LiDAR 기반 4D 파노프틱 세그멘테이션을 위한 동적 시프팅 네트워크

자율주행 기술의 급속한 발전에 따라, 감지 시스템에 보다 포괄적인 3D 인식을 탑재하는 것이 중요해지고 있습니다. 그러나 기존 연구들은 LiDAR 센서에서 객체(예: 자동차와 보행자) 또는 장면(예: 나무와 건물)만을 구분하는 데 초점을 맞추고 있습니다. 본 연구에서는 객체와 장면을 통합적으로 구분하는 LiDAR 기반 팬오프틱 세그멘테이션 작업을 다루며, 이 새로운 도전적 작업을 향한 최초의 시도 중 하나로 동적 시프팅 네트워크(DS-Net)를 제안합니다. 특히, DS-Net은 다음과 같은 세 가지 매력적인 특성을 가지고 있습니다: 1) 강력한 백본 설계. DS-Net은 LiDAR 포인트 클라우드를 위해 특별히 설계된 실린더 컨볼루션(cylinder convolution)을 채택합니다. 2) 복잡한 포인트 분포를 위한 동적 시프팅. 일반적으로 사용되는 클러스터링 알고리즘들이 비균일한 포인트 클라우드 분포와 다양한 인스턴스 크기를 가진 복잡한 자율주행 장면을 처리할 수 없다는 점을 관찰하였습니다. 따라서, 동적 시프팅(dynamic shifting)이라는 효율적인 학습 가능한 클러스터링 모듈을 제시하여, 서로 다른 인스턴스에 대해 실시간으로 커널 함수를 조정할 수 있도록 하였습니다. 3) 4D 예측으로의 확장. 또한, 정렬된 LiDAR 프레임에서 시간적으로 통합된 인스턴스 클러스터링을 통해 DS-Net을 4D 팬오프틱 LiDAR 세그멘테이션으로 확장하였습니다.LiDAR 기반 팬오프틱 세그멘테이션의 성능을 종합적으로 평가하기 위해,SemanticKITTI와 nuScenes라는 두 개의 대규모 자율주행 LiDAR 데이터셋에서 벤치마크를 구성하고 관리하였습니다. 광범위한 실험 결과, 제안된 DS-Net이 양쪽 작업 모두에서 현재 최신 방법론들보다 우수한 정확도를 달성하였음을 입증하였습니다. 특히 단일 프레임 버전 작업에서는 PQ 지표 측면에서 최신 방법론(SOTA)보다 1.8% 높은 성능을 보였으며, 4D 버전 작업에서는 LSTQ 지표 측면에서 2위 방법론보다 5.4% 높은 성능을 나타냈습니다.