INR-V: 비디오 기반 생성 작업을 위한 연속적 표현 공간

비디오 생성은 시간적으로 일관된 이미지 프레임을 단계별로 생성함으로써 이루어지는 복잡한 작업이다. 그러나 이 방식은 각 비디오 프레임에 대한 이미지 기반 연산만을 가능하게 하며, 이미지 공간 내에서 시간적으로 일관된 경로를 도출하기 위한 네트워크 설계가 필요하다는 한계를 가진다. 본 연구에서는 비디오 기반 생성 작업을 위한 연속적인 표현 공간을 학습하는 INR-V라는 비디오 표현 네트워크를 제안한다. INR-V는 은닉 신경 표현(implicit neural representations, INRs)을 사용하여 비디오를 매개변수화하며, 이는 입력 비디오의 각 픽셀 위치에 대해 RGB 값을 예측하는 다층 퍼셉트론이다. 이러한 INR은 여러 비디오 인스턴스의 신경 표현에 기반해 훈련된 메타네트워크(하이퍼네트워크)를 통해 예측된다. 이후 메타네트워크를 샘플링함으로써 다양한 새로운 비디오를 생성할 수 있으며, 이는 다양한 후속 비디오 기반 생성 작업을 가능하게 한다. 흥미롭게도, 조건부 정규화(conditional regularization)와 점진적 가중치 초기화(progressive weight initialization)가 INR-V의 성능 향상에 결정적인 역할을 함을 발견하였다. INR-V가 학습한 표현 공간은 기존의 이미지 공간보다 더 높은 표현력을 지니며, 기존 연구에서는 불가능했던 많은 흥미로운 특성을 보여준다. 예를 들어, INR-V는 이미지 인스턴스 간의 중간 상태(예: 얼굴 비디오에서의 중간 정체성, 표정, 자세 등)를 부드럽게 보간하여 중간 비디오를 생성할 수 있다. 또한, 비디오의 누락된 부분을 보정하여 시간적으로 일관된 완전한 비디오를 복원하는 비디오 인페인팅(video inpainting)도 가능하다. 본 연구에서는 INR-V가 학습한 표현 공간을 다양한 생성 작업, 즉 비디오 보간, 새로운 비디오 생성, 비디오 역설계(video inversion), 비디오 인페인팅에 대해 기존 베이스라인과 비교하여 평가하였다. 그 결과, INR-V는 이러한 다수의 작업에서 기존 방법들을 크게 능가하며, 제안된 표현 공간의 잠재력이 명확히 입증되었다.