CRAFT: 강건한 광학 흐름을 위한 크로스 어텐션 플로우 트랜스포머

광학 흐름 추정은 두 이미지 간에 대응하는 픽셀을 식별함으로써 2차원 운동 필드를 추정하는 것을 목표로 한다. 딥러닝 기반 광학 흐름 방법의 급속한 발전에도 불구하고, 운동 왜곡이 동반된 큰 이동 거리를 정확하게 추정하는 것은 여전히 도전 과제이다. 이는 주로 픽셀 매칭의 기초가 되는 상관성 볼륨(correlation volume)이 두 이미지의 합성곱 특징 벡터 간의 내적(dot product)으로 계산되기 때문이다. 합성곱 특징의 국소성(locality)으로 인해 계산된 상관성은 다양한 노이즈에 취약하다. 특히 운동 왜곡이 있는 큰 이동 거리에서는 노이즈가 포함된 상관성이 추정된 흐름에 심각한 오류를 초래할 수 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 상관성 볼륨 계산을 새롭게 재구성하는 새로운 아키텍처인 "CRoss-Attentional Flow Transformer"(CRAFT)를 제안한다. CRAFT에서는 한 프레임의 특징을 더 전역적이고 의미적으로 안정적인 형태로 변환하기 위해 '세마틱 스무딩 트랜스포머(Semantic Smoothing Transformer)' 레이어를 도입한다. 또한, 기존의 내적 기반 상관성 계산을 트랜스포머 기반의 크로스프레임 어텐션(Cross-Frame Attention)으로 대체함으로써, 쿼리(Query)와 키(Key) 프로젝션을 통해 특징 노이즈를 효과적으로 필터링하고 보다 정확한 상관성을 계산한다. Sintel(Final) 및 KITTI(foreground) 벤치마크에서 CRAFT는 새로운 최고 성능을 달성하였다. 더불어, 다양한 모델이 큰 운동에 대해 얼마나 강건한지를 평가하기 위해, 입력 이미지를 이동시켜 인공적으로 큰 운동을 유도하는 '이미지 이동 공격(image shifting attack)'을 설계하였다. 이 공격 조건 하에서 CRAFT는 대표적인 두 모델인 RAFT와 GMA보다 훨씬 더 뛰어난 강건성을 보였다. CRAFT의 코드는 https://github.com/askerlee/craft 에서 공개되어 있다.