17일 전

CroCo v2: 스테레오 매칭 및 광학 흐름을 위한 개선된 크로스뷰 완성 사전 학습

Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud
CroCo v2: 스테레오 매칭 및 광학 흐름을 위한 개선된 크로스뷰 완성 사전 학습
초록

고수준의 하류 작업에서 놀라운 성능을 보이긴 하지만, 자기지도 학습 사전 훈련 방법은 아직 스테레오 매칭이나 광학 흐름과 같은 밀도 높은 기하학적 비전 작업에서 완전한 성과를 내지 못하고 있다. 인스턴스 구분이나 마스크된 이미지 모델링과 같은 자기지도 학습 개념을 기하학적 작업에 적용하는 것은 현재 활발히 연구되고 있는 분야이다. 본 연구에서는 최근 제안된 다중 시점 보완 프레임워크(cross-view completion framework)에 기반을 두고 있다. 이는 동일한 장면의 두 번째 시점 이미지를 활용하는 마스크된 이미지 모델링의 변형으로, 이중 시점 하류 작업에 매우 적합하다. 그러나 이 개념의 적용은 지금까지 최소 두 가지 측면에서 제한을 받았다. 첫째, 현실 세계의 이미지 쌍을 수집하는 데 어려움이 있으며, 실질적으로는 합성 데이터만이 사용되어 왔다. 둘째, 절대 위치보다 상대 위치가 더 중요한 밀도 높은 하류 작업에 대해 기존의 트랜스포머 모델이 일반화 성능이 부족하다는 점이다. 우리는 세 가지 방향에서 성능 향상을 탐색한다. 첫째, 대규모로 적합한 현실 세계 이미지 쌍을 수집하는 방법을 제안한다. 둘째, 상대적 위치 임베딩(relative positional embeddings)을 실험하여, 이들이 비전 트랜스포머의 성능을 상당히 향상시킬 수 있음을 보여준다. 셋째, 대량의 데이터를 활용함으로써 가능해진, 비전 트랜스포머 기반의 교차 보완 아키텍처를 확장한다. 이러한 개선들을 통해, 전통적인 작업 특화 기법인 상관성 볼륨(correlation volume), 반복 추정(iterative estimation), 이미지 왜곡(image warping), 다중 스케일 추론(multi-scale reasoning) 등을 전혀 사용하지 않고도, 스테레오 매칭과 광학 흐름에서 최첨단 성능을 달성할 수 있음을 처음으로 입증함으로써, 보편적 비전 모델의 실현 가능성을 열어가고 있다.

CroCo v2: 스테레오 매칭 및 광학 흐름을 위한 개선된 크로스뷰 완성 사전 학습 | 최신 연구 논문 | HyperAI초신경