보다 나은 일반화를 위한 접근: PoseNet 없이 연합된 깊이-자세 학습

이 연구에서는 자기지도 학습 기반의 깊이-자세 동시 학습에서 발생하는 스케일 불일치 문제를 해결한다. 기존 대부분의 방법들은 모든 입력 샘플에 대해 깊이와 자세의 일관된 스케일을 학습할 수 있다고 가정하지만, 이는 학습 문제를 더욱 복잡하게 만들며, 실내 환경과 장거리 시퀀스 비전 오도메트리 응용에서 성능 저하와 일반화 능력의 한계를 초래한다. 본 연구에서는 이러한 문제를 해결하기 위해, 네트워크 추정에서 스케일을 명시적으로 분리하는 새로운 시스템을 제안한다. PoseNet 아키텍처에 의존하지 않고, 밀도 높은 광학 흐름 대응 관계에서 기본 행렬(fundamental matrix)을 직접 해결함으로써 상대 자세를 복원하고, 두 뷰 트리아ング룰레이션 모듈을 활용하여 스케일에 따라 정규화된 3차원 구조를 복원한다. 이후, 추정된 깊이 맵의 스케일을 트리아앵글레이션된 점군과 일치시킨 후, 변환된 깊이 맵을 사용하여 깊이 오차 계산 및 밀도 높은 재투영 검증(reprojection check)을 수행한다. 본 시스템은 전체적으로 엔드투엔드(end-to-end)로 공동 학습이 가능하다. 광범위한 실험 결과는 제안한 시스템이 KITTI 깊이 및 흐름 추정에서 최신 기술 수준의 성능을 달성할 뿐만 아니라, 다양한 도전적인 시나리오에서 기존 자기지도 깊이-자세 학습 방법의 일반화 능력을 크게 향상시켰으며, KITTI 오도메트리 및 NYUv2 데이터셋에서 자기지도 학습 기반 방법 중 최고 성능을 기록함을 보여준다. 또한, PoseNet 기반 상대 자세 추정 방법이 일반화 능력 측면에서 가지는 한계에 대한 흥미로운 관찰 결과도 제시한다. 코드는 https://github.com/B1ueber2y/TrianFlow 에서 공개되어 있다.