S3CNet: LiDAR 포인트 클라우드를 위한 스파스 세마틱 장면 완성 네트워크

자율주행 및 유사 로봇 시스템이 점점 더 강력한 3차원 시각 기술에 의존함에 따라, 깊은 합성곱 신경망을 활용한 LiDAR 스캔 처리는 학계와 산업계 모두에서 주목받는 트렌드로 부상하고 있다. 특히, '세분적 장면 완성(Semantic Scene Completion)'이라는 도전적인 과제에 대한 기존의 시도는, 밀도 높은 포인트 클라우드 또는 깊이 맵을 제공받은 경우, 소규모 실내 환경에서는 어느 정도 성공을 거두었다. 이들 접근법은 RGB 이미지로부터 얻은 세분적 분할 맵과 융합된 형태로 작동하는 경우가 많았다. 그러나 동적이고 지수적으로 희박해지는 특성을 지닌 대규모 실외 환경에 적용할 경우, 이러한 시스템의 성능은 급격히 저하된다. 또한, 전체 희박한 3차원 볼륨을 처리하는 것은 메모리 제약으로 인해 실현 불가능하며, 이를 극복하기 위해 연구자들은 전체 볼륨을 여러 개의 동일한 구간으로 나누어 각각 별도로 추론해야 하는 비효율적인 방법을 사용하게 되어 실시간 처리는 불가능해진다. 본 연구에서는 대규모 환경의 희박성 특성을 통합적으로 고려하는 방법을 제안하고, 단일 통합 LiDAR 포인트 클라우드로부터 세분적으로 완성된 장면을 예측하는 희박 합성곱 기반 신경망인 S3CNet을 제시한다. 제안하는 방법이 3차원 장면 완성 과제에서 기존의 모든 대안보다 뛰어난 성능을 보이며, SemanticKITTI 벤치마크에서 최신 기준(SOTA) 성능을 달성함을 입증한다. 더불어, 2차원 버전의 S3CNet과 다중 시점 융합 전략을 제안하여 3차원 네트워크를 보완함으로써, 가려짐 및 원거리 영역에서 극한의 희박성에 대한 강건성을 확보하였다. 본 연구는 2차원 세분적 장면 완성 과제에 대해 실험을 수행하고, 두 개의 오픈소스 데이터셋에서 Bird's Eye View 분할을 위해 적응된 여러 선도적인 LiDAR 분할 모델들과 비교하여, 제안한 희박 2차원 네트워크의 성능을 평가하였다.