
초록
우리는 클래식 스페이셜 피라미드 형식과 딥 러닝을 결합하여 광학 흐름을 계산하는 방법을 배웁니다. 이 방법은 각 피라미드 수준에서 한 쌍의 이미지 중 하나를 현재 흐름 추정치로 왜곡(warping)하고, 흐름 업데이트를 계산함으로써 거친 단계에서 세부 단계로 큰 움직임을 추정합니다. 각 피라미드 수준에서 목적 함수(objective function)의 표준 최소화 대신, 우리는 각 수준마다 하나의 딥 네트워크를 훈련시켜 흐름 업데이트를 계산합니다. 최근의 FlowNet 접근 방식과 달리, 우리의 네트워크는 큰 움직임을 처리할 필요가 없습니다. 이러한 큰 움직임은 피라미드에 의해 처리됩니다. 이는 여러 가지 장점이 있습니다. 첫째, 우리의 스페이셜 피라미드 네트워크(SPyNet)는 모델 매개변수 측면에서 FlowNet보다 훨씬 간단하고 96% 작습니다. 이는 임베디드 애플리케이션에 더 효율적이고 적합합니다. 둘째, 각 피라미드 수준에서의 흐름이 작아(< 1 픽셀), 왜곡된 이미지 쌍에 적용되는 합성곱 접근 방식이 적절합니다. 셋째, FlowNet과 달리 학습된 합성곱 필터는 클래식 시공간 필터(spatio-temporal filters)와 유사한 형태를 보여주어, 방법론과 개선 방안에 대한 통찰력을 제공합니다. 우리의 결과는 대부분의 표준 벤치마크에서 FlowNet보다 정확하며, 클래식 흐름 방법과 딥 러닝을 결합하는 새로운 방향을 제시하고 있습니다.