11일 전

GCNDepth: 그래프 컨볼루션 네트워크 기반의 자기지도 학습 단안 깊이 추정

Armin Masoumian, Hatem A. Rashwan, Saddam Abdulwahab, Julian Cristiano, Domenec Puig
GCNDepth: 그래프 컨볼루션 네트워크 기반의 자기지도 학습 단안 깊이 추정
초록

심도 추정은 환경 인식 정확도를 향상시키기 위한 3D 재구성에서 도전적인 과제이다. 본 연구는 기존 방법에 비해 심도 맵에 대한 정량적·정성적 이해를 향상시키는 일련의 개선을 통해 새로운 해결책을 제시한다. 최근, 합성곱 신경망(Convolutional Neural Network, CNN)은 단일 영상(모노크롬 영상)에서 심도 맵을 추정하는 데 있어 뛰어난 성능을 보여주었다. 그러나 기존의 CNN은 위상 구조(топологical 구조)를 지원하지 않으며, 고정된 크기와 가중치를 가진 정규적인 이미지 영역에서만 작동할 수 있다. 반면, 그래프 합성곱 신경망(Graph Convolutional Network, GCN)은 비유클리드 데이터에 대한 합성곱 연산을 처리할 수 있으며, 위상 구조 내에서 불규칙한 이미지 영역에도 적용 가능하다. 따라서 본 연구에서는 객체의 기하학적 외형과 분포를 유지하기 위해 GCN을 활용한 자기지도 학습(self-supervised) 기반의 심도 추정 모델을 제안한다. 제안하는 모델은 두 개의 병렬 자동인코더 네트워크로 구성된다. 첫 번째 네트워크는 ResNet-50 기반의 자동인코더로서 입력 이미지로부터 특징을 추출하고, 다중 스케일 GCN을 활용하여 심도 맵을 추정한다. 두 번째 네트워크는 ResNet-18 기반으로 연속된 두 프레임 사이의 자가 운동 벡터(즉, 3D 자세)를 추정한다. 추정된 3D 자세와 심도 맵은 타겟 이미지를 구성하는 데 사용된다. 광학적(photo-metric), 투영(projection), 부드러움(smoothness)과 관련된 손실 함수의 조합을 통해 잘못된 심도 예측을 완화하고 객체의 불연속성을 유지한다. 특히, 제안된 방법은 공개된 KITTI 및 Make3D 데이터셋에서 89%의 높은 예측 정확도를 달성하며, 기존 최고 수준의 솔루션 대비 학습 가능한 파라미터 수를 40% 감소시켰다. 소스 코드는 공개적으로 제공되며, 다음 URL에서 확인할 수 있다: https://github.com/ArminMasoumian/GCNDepth.git

GCNDepth: 그래프 컨볼루션 네트워크 기반의 자기지도 학습 단안 깊이 추정 | 최신 연구 논문 | HyperAI초신경