전역 운동 집약을 통한 은닉 운동 추정 학습

차폐(occlusions)는 국소적 증거에 의존하는 광류( optical flow) 알고리즘에게 중요한 도전 과제를 제기한다. 본 연구에서는 첫 번째 프레임에서 영상화되지만 다음 프레임에서는 영상화되지 않는 점을 차폐된 점으로 간주한다. 이는 표준 정의를 약간 과도하게 확장한 것으로, 프레임을 벗어나는 점들도 포함하기 때문이다. 이러한 점들의 운동을 추정하는 것은 특히 두 프레임 설정에서 매우 어렵다. 기존의 연구는 CNN을 활용해 차폐를 학습하려 했으나 큰 성공을 거두지 못했으며, 또는 시간적 매끄러움을 활용해 차폐를 추론하기 위해 다수의 프레임을 필요로 했다. 본 논문에서는 두 프레임 설정에서 차폐 문제를 이미지의 자기 유사성(self-similarity)을 모델링함으로써 더 효과적으로 해결할 수 있다고 주장한다. 우리는 첫 번째 이미지 내 픽셀 간의 장거리 의존성을 탐지하기 위한 트랜스포머 기반의 전역 운동 집약 모듈(global motion aggregation module)을 제안하며, 해당 운동 특징에 대해 전역 집약(global aggregation)을 수행한다. 우리는 차폐 영역 내 광류 추정 성능이 비차폐 영역의 성능에 손상을 주지 않고 크게 향상됨을 실험적으로 입증한다. 본 방법은 도전적인 Sintel 데이터셋에서 새로운 최고 성능을 기록하였으며, Sintel Final에서 평균 종점 오차(end-point error)를 13.6%, Sintel Clean에서는 13.7% 개선하였다. 제출 시점 기준으로 본 방법은 공개 및 비공개 모든 접근 방식 중에서 해당 벤치마크에서 1위를 기록하고 있다. 코드는 다음 링크에서 제공된다: https://github.com/zacjiang/GMA