
밀도 높은 깊이 인식은 자율 주행 및 기타 로봇 기술 응용 분야에서 매우 중요합니다. 그러나 현대의 LiDAR 센서는 희소한 깊이 측정만을 제공합니다. 따라서 희소한 LiDAR 데이터를 완성하는 것이 필요하며, 이 과정을 용이하게 하기 위해 동기화된 가이드 RGB 이미지가 종종 사용됩니다. 이 작업을 위한 많은 신경망들이 설계되었지만, 그들은 종종 단순히 특성 연결(feature concatenation)이나 요소별 덧셈(element-wise addition)을 수행하여 LiDAR 데이터와 RGB 이미지 정보를 융합합니다.가이드 이미지 필터링에 영감을 받아, 우리는 가이드 이미지에서 커널 가중치를 예측하도록 설계된 새로운 가이드 네트워크를 제안합니다. 예측된 커널은 이후 깊이 이미지 특성을 추출하기 위해 적용됩니다. 이렇게 함으로써, 우리의 네트워크는 다중 모달 특성 융합을 위한 내용에 따라 변하고 공간적으로 변동하는 커널(content-dependent and spatially-variant kernels)을 생성합니다. 동적으로 생성되는 공간적으로 변동하는 커널은 금지적인 GPU 메모리 소비와 계산 부하를 초래할 수 있습니다. 이를 해결하기 위해, 우리는 계산과 메모리 소비를 줄이는 합성곱 인수분해(convolution factorization) 방법을 설계했습니다. GPU 메모리 감소는 다단계 방식에서 특성 융합이 작동할 수 있게 합니다.우리는 실제 실외, 실내 및 합성 데이터셋에서 우리 방법의 검증을 위해 포괄적인 실험들을 수행했습니다. 우리의 방법은 강력한 결과를 생성하며, NYUv2 데이터셋에서는 최신 기법들을 능가하고 제출 시점에서 KITTI 깊이 완성 벤치마크에서 1위를 차지했습니다. 또한 다양한 3D 점 밀도, 여러 조명 및 날씨 조건, 그리고 크로스-데이터셋 평가에서도 강력한 일반화 능력을 보여주었습니다. 코드는 재현성을 위해 공개될 예정입니다.