2달 전

3D 의미장면 완성과 문맥적 인스턴스 쿼리의 조화

Jiang, Haoyi ; Cheng, Tianheng ; Gao, Naiyu ; Zhang, Haoyang ; Lin, Tianwei ; Liu, Wenyu ; Wang, Xinggang

초록

3D 의미 장면 완성(SSC)은 자율 주행 분야에서 새로운이고 중요한 과제로 부상하여, 볼루메트릭 장면 내의 복셀 점유를 예측하는 것을 목표로 합니다. 그러나 현재의 방법론들은 주로 복셀 단위 특징 집합에 초점을 맞추고 있으며, 인스턴스 의미와 장면 맥락을 간과하고 있습니다. 본 논문에서는 인스턴스 쿼리를 통합하여 2D-3D 재구성과 3D 장면 모델링을 조정하는 새로운 패러다임인 'Symphonies (Scene-from-Insts)'를 제시합니다. 제안된 직렬 인스턴스 전파 어텐션(Serial Instance-Propagated Attentions)을 활용하여, Symphonies는 동적으로 인스턴스 중심의 의미를 인코딩하며, 이미지 기반 영역과 볼루메트릭 영역 사이의 복잡한 상호작용을 용이하게 합니다. 동시에, Symphonies는 인스턴스 쿼리의 효율적인 융합을 통해 맥락을 포착하여, 가림 현상과 시점 오류 등의 기하학적 모호성을 맥락적 장면 추론을 통해 완화합니다. 실험 결과는 Symphonies가SemanticKITTI와 SSCBench-KITTI-360라는 도전적인 벤치마크에서 최고 수준의 성능을 달성함을 보여주며, 각각 15.04와 18.58의 뛰어난 mIoU 점수를 얻었습니다. 이러한 결과는 이 패러다임이 유망한 발전을 이루고 있음을 입증합니다. 코드는 https://github.com/hustvl/Symphonies에서 제공됩니다.