16일 전

MAMo: 단안 영상 깊이 추정을 위한 메모리와 어텐션의 활용

Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli
MAMo: 단안 영상 깊이 추정을 위한 메모리와 어텐션의 활용
초록

우리는 단일 영상 깊이 추정 네트워크를 비디오 깊이 추정 모델로 개선할 수 있도록 하는 새로운 메모리 및 주의 메커니즘 프레임워크인 MAMo를 제안한다. MAMo는 기존의 단일 이미지 기반 깊이 추정 네트워크에 메모리 모듈을 추가함으로써, 시간 정보를 활용하여 보다 정확한 깊이를 예측할 수 있도록 한다. MAMo에서는 영상이 시퀀스로 처리되는 동안 메모리 모듈을 통해 과거의 시각적 특징과 변위 토큰(visual and displacement tokens)을 저장한다. 이를 통해 현재 프레임의 깊이를 추정할 때, 과거의 관련 특징을 참조할 수 있게 된다. 우리는 메모리의 지속적인 업데이트를 위한 새로운 기법을 도입하여, 과거와 현재의 시각 정보 모두와 잘 대응하는 토큰을 유지하도록 메모리를 최적화한다. 메모리 특징 처리에는 주의 기반 접근 방식을 사용하며, 먼저 자기 주의(self-attention) 모듈을 통해 생성된 시각적 및 변위 메모리 토큰 간의 공간-시간 관계를 학습한다. 이후, 자기 주의의 출력 특징을 현재의 시각적 특징과 교차 주의(cross-attention)를 통해 통합한다. 최종적으로, 교차 주의된 특징은 디코더에 입력되어 현재 프레임의 깊이를 예측한다. KITTI, NYU-Depth V2, DDAD 등 여러 벤치마크에서 실시한 광범위한 실험을 통해, MAMo가 단일 영상 기반 깊이 추정 네트워크를 일관되게 개선하며, 새로운 최고 성능(SOTA) 기록을 달성함을 입증하였다. 특히, 기존의 SOTA 기반의 비용 볼륨(cost-volume) 기반 비디오 깊이 추정 모델과 비교했을 때, MAMo는 더 높은 정확도를 유지하면서도 낮은 지연(latency)을 제공함으로써 실시간 적용 가능성에서도 우수한 성능을 보였다.

MAMo: 단안 영상 깊이 추정을 위한 메모리와 어텐션의 활용 | 최신 연구 논문 | HyperAI초신경