SemAttNet: 주의 기반 의미 인지 지도(depth completion)를 향한 연구

깊이 보완(depth completion)은 희소한 깊이 맵과 RGB 이미지를 기반으로 밀도 높은 깊이 맵을 복원하는 작업이다. 최근의 접근 방식들은 유효하지 않은 픽셀에서 깊이를 복원하기 위해 색상 이미지를 가이드 이미지로 활용하는 데 초점을 맞추고 있다. 그러나 색상 이미지만으로는 장면에 대한 충분한 의미적 이해를 제공하기에는 부족하다. 결과적으로 RGB 이미지에서 급격한 조명 변화(예: 그림자)가 발생할 경우 깊이 보완 작업의 성능이 저하된다. 본 논문에서는 색상 가이드, 의미 가이드, 깊이 가이드의 세 가지 분기로 구성된 새로운 삼중 분기 기반 구조를 제안한다. 구체적으로, 색상 가이드 분기는 희소 깊이 맵과 RGB 이미지를 입력으로 받아 장면의 색상 정보(예: 물체 경계)를 포함한 색상 깊이를 생성한다. 이 색상 가이드 분기에서 예측된 밀도 높은 깊이 맵과 의미 이미지, 희소 깊이 맵을 의미 가이드 분기로 전달하여 의미 깊이를 추정한다. 의미 가이드 분기는 희소 깊이, 색상 깊이, 의미 깊이를 입력으로 받아 최종 밀도 높은 깊이 맵을 생성한다. 이후 색상 깊이, 의미 깊이, 가이드 깊이를 적응형 방식으로 융합하여 제안한 삼중 분기 기반 구조의 출력을 도출한다. 또한, 모든 세 가지 분기 간의 특징을 융합하기 위해 의미 인식형 다모달 주의 기반 융합 블록(semantic-aware multi-modal attention-based fusion block, SAMMAFB)을 도입한다. 더불어, 제안된 삼중 분기 기반 구조가 생성한 밀도 높은 깊이 맵을 정교화하기 위해 CSPN++과 Atrous 컨볼루션을 활용한다. 광범위한 실험 결과, 제안한 모델은 제출 시점에서 KITTI 깊이 보완 벤치마크에서 최고 성능을 달성함을 확인하였다.