
초록
본 논문에서는 극단적인 움직임을 가진 4K 비디오 데이터셋(X4K1000FPS)을 연구 커뮤니티에 소개하고, 이 데이터셋을 이용하여 대규모 움직임이 있는 4K 비디오의 프레임 보간(VFI)을 처리하는 극단적인 VFI 네트워크인 XVFI-Net를 제안합니다. XVFI-Net은 두 개의 연속 모듈로 구성된 재귀적 다중 스케일 공유 구조를 기반으로 하며, 이 모듈들은 두 입력 프레임 간의 양방향 광학 흐름 학습(BiOF-I)과 타겟 프레임에서 입력 프레임으로의 양방향 광학 흐름 학습(BiOF-T)을 수행합니다. BiOF-T 모듈에서 제안된 보완적 흐름 역전(CFR)을 통해 광학 흐름이 안정적으로 추정됩니다. 추론 과정에서 BiOF-I 모듈은 입력의 임의 스케일에서 시작할 수 있지만, BiOF-T 모듈은 원래 입력 스케일에서만 작동하므로, 높은 정확도를 유지하면서 추론 속도가 빨라집니다. 다양한 실험 결과는 우리의 XVFI-Net이 극단적으로 큰 움직임과 복잡한 질감을 가진 객체의 본질적인 정보를 성공적으로 포착할 수 있음을 보여주며, 최신 방법들이 부족한 성능을 나타내는 것과 대조됩니다. 또한, 우리의 XVFI-Net 프레임워크는 이전 저해상도 벤치마크 데이터셋에서도 유사한 성능을 보여주어 알고리즘의 강건성을 입증하였습니다. 모든 소스 코드, 사전 학습된 모델 및 제안된 X4K1000FPS 데이터셋은 https://github.com/JihyongOh/XVFI에서 공개적으로 접근 가능합니다.