2달 전

카메라 기반 의미 장면 완성에 대한 계층적 시계열 맥락 학습

Li, Bohan ; Deng, Jiajun ; Zhang, Wenyao ; Liang, Zhujin ; Du, Dalong ; Jin, Xin ; Zeng, Wenjun
카메라 기반 의미 장면 완성에 대한 계층적 시계열 맥락 학습
초록

카메라 기반 3차원 의미적 장면 완성(SSC)은 제한된 2차원 이미지 관측치로 복잡한 3차원 레이아웃을 예측하는 데 중요한 역할을 합니다. 기존의 주류 솔루션들은 일반적으로 과거 프레임들을 대략적으로 쌓아 현재 프레임을 보완하는 방식으로 시간 정보를 활용합니다. 이러한 단순한 시간 모델링은 필수적인 단서를 감소시키고 학습 난이도를 증가시키는 불가피한 문제를 초래합니다. 이 문제를 해결하기 위해, 우리는 HTCL이라는 새로운 계층적 시간 컨텍스트 학습 패러다임을 제시합니다. 이 연구의 주요 혁신은 시간 컨텍스트 학습을 두 가지 계층적 단계로 분해하는 것입니다: (a) 프레임 간 유사성 측정과 (b) 유사성 기반 동적 정교화입니다. 먼저, 중요하지만 관련성이 있는 컨텍스트와 중복 정보를 구분하기 위해, 스케일 인식 격리(scale-aware isolation)와 여러 독립적인 학습자(multiple independent learners)를 도입하여 세밀한 컨텍스트 대응 모델링을 수행합니다. 그 다음, 초기에 높은 유사성을 가진 위치와 그 주변의 관련 영역을 기반으로 특징 샘플링 위치를 적응적으로 정교화하여 불완전한 관측치를 동적으로 보완합니다. 우리의 방법은 SemanticKITTI 벤치마크에서 1위를 차지하였으며, OpenOccupancy 벤치마크에서는 LiDAR 기반 방법보다 mIoU 면에서 우수한 성능을 보였습니다. 우리의 코드는 https://github.com/Arlo0o/HTCL에서 제공됩니다.

카메라 기반 의미 장면 완성에 대한 계층적 시계열 맥락 학습 | 최신 연구 논문 | HyperAI초신경