18일 전

고품질 프레임 보간을 위한 다중 비디오 신경망 표현 학습

Wentao Shangguan, Yu Sun, Weijie Gan, Ulugbek S. Kamilov
고품질 프레임 보간을 위한 다중 비디오 신경망 표현 학습
초록

이 논문은 두 인접 프레임이 주어졌을 때 새로운 비디오 프레임을 합성하는 시계열 비디오 보간 문제를 다룬다. 우리는 신경 필드(Neural Fields, NF) 기반의 첫 번째 비디오 보간 방법으로서, 공간-시간 기반 신경 표현(Cross-Video Neural Representation, CURE)을 제안한다. 신경 필드는 최근 컴퓨터 비전 분야에서 복잡한 3차원 장면을 신경망으로 표현하는 데 성공적으로 활용된 방법론으로, 널리 적용되고 있다. CURE는 좌표 기반 신경망으로 파라미터화된 연속적인 함수로서 비디오를 표현하며, 입력은 공간-시간 좌표이고 출력은 해당 위치의 RGB 값이다. CURE는 합성된 비디오에서 공간-시간 일관성을 유지하기 위해 입력 프레임에 조건부로 작동하는 새로운 아키텍처를 도입한다. 이는 최종 보간 품질을 향상시키는 동시에, 여러 비디오 간의 사전 지식(prior)을 학습할 수 있도록 한다. 실험적 평가 결과, CURE는 여러 벤치마크 데이터셋에서 비디오 보간 분야에서 최고 수준의 성능을 달성하였다.