GIM: 인터넷 동영상에서 일반화 가능한 이미지 매처를 학습하기

이미지 매칭은 컴퓨터 비전의 기본적인 문제입니다. 학습 기반 방법들은 기존 벤치마크에서 최고 수준의 성능을 달성하고 있지만, 실제 환경 이미지에 대한 일반화 능력이 떨어집니다. 이러한 방법들은 일반적으로 다양한 장면 유형별로 별도의 모델을 훈련시켜야 하며, 장면 유형이 사전에 알려져 있지 않은 경우에는 실용적이지 않습니다. 이 문제의 근본적인 원인 중 하나는 기존 데이터 구축 파이프라인의 제한된 확장성으로 인해 표준 이미지 매칭 데이터셋의 다양성이 제한되는 것입니다. 이 문제를 해결하기 위해, 우리는 GIM이라는 자가 훈련 프레임워크를 제안합니다. GIM은 인터넷 동영상이라는 풍부하고 다양한 데이터 소스를 활용하여 어떤 이미지 매칭 아키텍처라도 단일 일반화 가능한 모델을 학습하는 데 사용됩니다. 주어진 아키텍처에 대해 GIM은 먼저 표준 도메인 특화 데이터셋에서 이를 훈련시키고, 그 다음에는 보완적인 매칭 방법들을 결합하여 새로운 동영상의 인접한 프레임에 밀도 있는 라벨을 생성합니다. 이러한 라벨은 견고한 피팅을 통해 필터링되고, 먼 프레임으로 전파되어 강화됩니다. 최종 모델은 강력한 증강을 적용하여 전파된 데이터로 훈련됩니다.또한, 우리는 ZEB라는 첫 번째 제로샷 평가 벤치마크를 제안합니다. ZEB는 다양한 도메인에서의 데이터를 혼합하여 서로 다른 방법들의 크로스-도메인 일반화 성능을 철저히 평가할 수 있습니다. GIM을 적용하면 3개의 최신 이미지 매칭 아키텍처에서 일관되게 제로샷 성능이 개선됩니다. 50시간 분량의 YouTube 동영상을 사용할 경우, 상대적인 제로샷 성능이 8.4%~18.1% 개선되었습니다. GIM은 또한 3D 포인트 클라우드(점군)의 조감도(Bird Eye View, BEV) 이미지와 같은 극단적인 크로스-도메인 데이터에 대한 일반화를 가능하게 합니다 (그림 1(c) 참조). 더욱 중요한 점은 우리의 단일 제로샷 모델이 각각의 도메인 고유의 하류 작업에서 평가될 때 도메인 특화 베이스라인보다 일관되게 우수한 성능을 보여준다는 것입니다. 동영상 발표는 https://www.youtube.com/watch?v=FU_MJLD8LeY 에서 확인할 수 있습니다.