2달 전
VFIMamba: 상태 공간 모델을 이용한 비디오 프레임 보간
Guozhen Zhang; Chunxu Liu; Yutao Cui; Xiaotong Zhao; Kai Ma; Limin Wang

초록
프레임 간 모델링은 비디오 프레임 보간(Video Frame Interpolation, VFI)을 위한 중간 프레임 생성에서 핵심적인 역할을 합니다. 현재의 접근 방식은 주로 컨볼루션 또는 어텐션 기반 모델에 의존하지만, 종종 충분한 수용 범위를 갖지 못하거나 상당한 계산 부담을 초래합니다. 최근에는 Selective State Space Models (S6)가 등장하여 긴 시퀀스 모델링에 특화되어 있으며, 선형 복잡도와 데이터 종속적 모델링 능력을 제공합니다. 본 논문에서는 S6 모델을 활용하여 효율적이고 동적인 프레임 간 모델링을 수행하는 새로운 프레임 보간 방법인 VFIMamba를 제안합니다. 우리의 접근 방식은 인접 프레임의 토큰들을 교차 방식으로 재배열한 후 다방향 S6 모델링을 적용하는 Mixed-SSM 블록(MSB)을 도입합니다. 이 설계는 프레임 간 정보 전달을 효율적으로 하면서 선형 복잡도를 유지할 수 있도록 합니다. 또한, 우리는 다양한 움직임 크기에 걸쳐 프레임 간 역학 모델링 능력을 점진적으로 향상시키는 새로운 커리큘럼 학습 전략을 제안합니다. 이는 S6 모델의 잠재력을 완전히 발휘할 수 있게 합니다. 실험 결과, 우리의 방법이 다양한 벤치마크에서 최고 수준의 성능을 달성하며 특히 고해상도 환경에서 뛰어난 성과를 보였습니다. 특히 X-TEST 데이터셋에서 VFIMamba는 4K 프레임에 대해 0.80 dB, 2K 프레임에 대해 0.96 dB의 눈에 띄는 개선 효과를 나타냈습니다.