17일 전

트랜스포머를 이용한 비디오 프레임 보간

Liying Lu, Ruizheng Wu, Huaijia Lin, Jiangbo Lu, Jiaya Jia
트랜스포머를 이용한 비디오 프레임 보간
초록

비디오 프레임 보간(VFI)은 비디오의 중간 프레임을 합성하는 것을 목표로 하며, 최근 몇 년간 깊은 합성곱 네트워크의 발전에 따라 놀라운 진전을 이루었다. 기존의 합성곱 네트워크 기반 방법은 합성곱 연산의 국소성으로 인해 큰 운동을 처리하는 데 어려움을 겪는다. 이러한 제약을 극복하기 위해, 우리는 Transformer를 활용하여 비디오 프레임 간의 장거리 픽셀 상관관계를 모델링하는 새로운 프레임워크를 제안한다. 더불어, 본 연구의 네트워크는 새로운 크로스 스케일 윈도우 기반 어텐션 메커니즘을 탑재하고 있으며, 이는 서로 다른 스케일의 윈도우 간에 상호작용을 가능하게 한다. 이러한 설계는 수용 영역을 효과적으로 확장하고 다중 스케일 정보를 통합하는 데 기여한다. 광범위한 정량적 및 정성적 실험을 통해 제안한 방법이 다양한 벤치마크에서 최신의 최상위 성능을 달성함을 입증하였다.