2달 전

FutureDepth: 미래 예측 학습이 비디오 깊이 추정을 개선함

Yasarla, Rajeev ; Singh, Manish Kumar ; Cai, Hong ; Shi, Yunxiao ; Jeong, Jisoo ; Zhu, Yinhao ; Han, Shizhong ; Garrepalli, Risheek ; Porikli, Fatih
FutureDepth: 미래 예측 학습이 비디오 깊이 추정을 개선함
초록

본 논문에서는 새로운 비디오 깊이 추정 접근 방식인 FutureDepth를 제안합니다. 이 접근 방식은 모델이 다중 프레임과 움직임 신호를 암시적으로 활용하여 훈련 시 미래를 예측하도록 학습함으로써 깊이 추정의 정확도를 높이는 것을 가능하게 합니다. 구체적으로, 우리는 다중 연속 프레임의 특성을 입력으로 받아 한 시간 단계 앞의 다중 프레임 특성을 반복적으로 예측하도록 훈련된 미래 예측 네트워크(F-Net)를 제안합니다. 이렇게 함으로써 F-Net은 기본적인 움직임과 대응 정보를 학습하며, 이러한 특성을 깊이 디코딩 과정에 통합합니다. 또한, 다중 프레임 대응 신호의 학습을 더욱 풍부하게 하기 위해, 적응적으로 마스킹된 자동 인코딩을 통해 다중 프레임 특성 볼륨을 훈련하는 재구성 네트워크(R-Net)를 활용합니다. 추론 시에는 F-Net과 R-Net 모두가 깊이 디코더와 함께 작동할 수 있는 쿼리를 생성하고, 최종 세부 조정 네트워크도 사용됩니다. NYUDv2, KITTI, DDAD, 그리고 Sintel 등 여러 벤치마크에서 실시한 광범위한 실험을 통해, FutureDepth가 기준 모델보다 크게 개선되었으며 기존의 비디오 깊이 추정 방법들을 능가하고 새로운 최고 성능(SOTA) 정확도를 달성함을 보여줍니다. 더불어, FutureDepth는 기존 SOTA 비디오 깊이 추정 모델들보다 효율적이며 단일 카메라 모델들과 비교할 때 유사한 지연 시간을 가집니다.

FutureDepth: 미래 예측 학습이 비디오 깊이 추정을 개선함 | 최신 연구 논문 | HyperAI초신경