17일 전
FlowFormer: 광학 흐름을 위한 트랜스포머 아키텍처
Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung, Hongwei Qin, Jifeng Dai, Hongsheng Li

초록
우리는 광학 흐름(optical flow) 학습을 위한 트랜스포머 기반 신경망 아키텍처인 '플로우포머(FlowFormer)'를 소개한다. 플로우포머는 이미지 쌍으로 구성된 4차원 비용 볼륨(cost volume)을 토큰화하고, 새로운 잠재 공간(latent space)에서 대체 그룹 트랜스포머(AGT, alternate-group transformer) 레이어를 사용하여 비용 토큰을 비용 메모리(cost memory)로 인코딩한 후, 동적 위치 비용 쿼리(dynamic positional cost queries)를 갖춘 순환 트랜스포머 디코더(recurrent transformer decoder)를 통해 비용 메모리를 디코딩한다. Sintel 벤치마크에서 플로우포머는 클린 패스(clean pass)와 패널티 패스(final pass)에서 각각 1.159와 2.088의 평균 종점 오차(AEPE)를 기록하며, 기존에 발표된 최고 성능 결과(1.388 및 2.47) 대비 각각 16.5%, 15.5%의 오차 감소를 달성했다. 또한 플로우포머는 뛰어난 일반화 성능을 보였다. Sintel 데이터셋에 대해 학습하지 않은 상태에서도 플로우포머는 Sintel 학습 세트의 클린 패스에서 1.01의 AEPE를 기록하며, 기존 최고 성능 결과(1.29)를 21.7% 우수하게 달성했다.