2달 전

문맥과 기하학을 고려한 복셀 트랜스포머를 이용한 의미적 장면 완성

Yu, Zhu ; Zhang, Runmin ; Ying, Jiacheng ; Yu, Junchen ; Hu, Xiaohai ; Luo, Lun ; Cao, Si-Yuan ; Shen, Hui-Liang
문맥과 기하학을 고려한 복셀 트랜스포머를 이용한 의미적 장면 완성
초록

시각 기반 의미적 장면 완성(Vision-based Semantic Scene Completion, SSC)은 다양한 3D 인식 작업에서의 광범위한 응용으로 인해 많은 주목을 받고 있습니다. 기존의 희소-밀도 변환 접근법은 일반적으로 여러 입력 이미지에 걸쳐 공유되는 맥락과 무관한 쿼리를 사용하는데, 이는 서로 다른 입력의 초점 영역이 다양하기 때문에 그들 간의 차이를 포착하지 못하고, 교차 주의(cross-attention)의 방향성이 없는 특징 집합을 초래할 수 있습니다. 또한 깊이 정보의 부재는 이미지 평면으로 투사된 점들이 동일한 2D 위치나 유사한 샘플링 점을 공유하게 되어 깊이 모호성을 초래할 수 있습니다.본 논문에서는 새로운 맥락 및 기하학적 인식을 갖춘 복셀 트랜스포머(voxel transformer)를 제안합니다. 이 모듈은 맥락 인식 쿼리 생성기를 활용하여 개별 입력 이미지에 맞춤화된 맥락 종속 쿼리를 초기화하여, 각 이미지의 고유한 특성을 효과적으로 포착하고 관심 영역 내에서 정보를 집합합니다. 또한, 이 모듈은 변형 가능한 교차 주의(deformable cross-attention)를 2D에서 3D 픽셀 공간으로 확장하여, 유사한 이미지 좌표를 가진 점들을 깊이 좌표에 따라 구분할 수 있게 합니다.이 모듈을 바탕으로, 우리는 CGFormer라는 신경망을 소개합니다. CGFormer는 복셀(voxel)과 TPV와 같은 여러 3D 표현을 활용하여, 변환된 3D 볼륨의 의미적 및 기하학적 표현 능력을 로컬 및 글로벌 관점에서 모두 향상시킵니다. 실험 결과, CGFormer는 SemanticKITTI와 SSCBench-KITTI-360 벤치마크에서 최고 수준의 성능을 달성하며, 각각 mIoU가 16.87과 20.05, IoU가 45.99와 48.07을 기록하였습니다. 특히, 시간적 이미지를 입력으로 사용하거나 훨씬 더 큰 이미지 백본 네트워크를 사용하는 접근법보다 우수한 성능을 보이는 것으로 나타났습니다.

문맥과 기하학을 고려한 복셀 트랜스포머를 이용한 의미적 장면 완성 | 최신 연구 논문 | HyperAI초신경