17일 전

ST-MFNet: 프레임 보간을 위한 공간시적 다중 흐름 네트워크

Duolikun Danier, Fan Zhang, David Bull
ST-MFNet: 프레임 보간을 위한 공간시적 다중 흐름 네트워크
초록

비디오 프레임 보간(VFI)은 현재 컴퓨터 비전, 후반 제작, 비디오 인코딩 등 다양한 분야에서 매우 활발한 연구 주제로 떠오르고 있다. 특히 큰 운동, 음영, 동적 텍스처를 포함한 시퀀스에서는 기존의 방법들이 인지적 안정성 있는 보간 성능을 제공하지 못해 매우 도전적인 과제로 남아 있다. 이러한 맥락에서 우리는 스페셜-타임스칼라 다중 유동(Spatio-Temporal Multi-Flow) 아키텍처를 기반으로 한 새로운 딥러닝 기반 VFI 방법인 ST-MFNet을 제안한다. ST-MFNet은 다중 스케일 다중 유동 예측기(Multi-scale Multi-Flow Predictor)를 도입하여 다수에서 일수로의 중간 유동을 추정하며, 기존의 일대일 광학 유동과 결합함으로써 큰 운동과 복잡한 움직임을 효과적으로 포착한다. 또한 다양한 텍스처에 대한 보간 성능을 향상시키기 위해 3차원 컨볼루션 신경망(3D CNN)을 활용하여 확장된 시간 창 내의 콘텐츠 동역학을 모델링한다. 더불어 ST-MFNet은 원래 텍스처 합성에 사용되도록 개발된 ST-GAN(스페셜-타임스칼라 생성적 적대망) 프레임워크 내에서 학습되었으며, 이는 인지적 보간 품질을 추가로 향상시키는 것을 목표로 한다. 제안된 방법은 14개의 최신 VFI 알고리즘과의 철저한 비교를 통해 평가되었으며, 다양한 대표적 테스트 데이터셋에서 일관되게 우수한 성능을 보여주었으며, 특히 큰 운동과 동적 텍스처를 포함하는 경우 PSNR 기준 최대 1.09dB의 의미 있는 성능 향상이 나타났다. 프로젝트 페이지: https://danielism97.github.io/ST-MFNet

ST-MFNet: 프레임 보간을 위한 공간시적 다중 흐름 네트워크 | 최신 연구 논문 | HyperAI초신경