
초록
비디오 프레임 보간(VFI)은 비디오의 중간 프레임을 합성하는 것을 목표로 하며, 최근 몇 년간 깊은 합성곱 네트워크의 발전에 따라 놀라운 진전을 이루었다. 기존의 합성곱 네트워크 기반 방법은 합성곱 연산의 국소성으로 인해 큰 운동을 처리하는 데 어려움을 겪는다. 이러한 제약을 극복하기 위해, 우리는 Transformer를 활용하여 비디오 프레임 간의 장거리 픽셀 상관관계를 모델링하는 새로운 프레임워크를 제안한다. 더불어, 본 연구의 네트워크는 새로운 크로스 스케일 윈도우 기반 어텐션 메커니즘을 탑재하고 있으며, 이는 서로 다른 스케일의 윈도우 간에 상호작용을 가능하게 한다. 이러한 설계는 수용 영역을 효과적으로 확장하고 다중 스케일 정보를 통합하는 데 기여한다. 광범위한 정량적 및 정성적 실험을 통해 제안한 방법이 다양한 벤치마크에서 최신의 최상위 성능을 달성함을 입증하였다.