
초록
우리는 암묵적 신경 표현(implicit neural representations, INRs)을 활용하여 비디오를 어떻게 표현할 수 있는지에 대해 연구한다. 기존의 INRs 방법들은 일반적으로 입력 좌표를 출력 픽셀로 매핑하는 MLP를 사용한다. 최근 일부 연구들은 CNN을 직접 사용하여 전체 이미지를 재구성하려는 시도를 했으나, 본 연구에서는 이러한 픽셀 단위와 이미지 단위의 전략이 비디오 데이터에 적합하지 않다고 주장한다. 대신, 우리는 패치 단위의 해결책인 PS-NeRV를 제안한다. 이 방법은 비디오를 패치와 해당 패치의 좌표에 대한 함수로 표현하며, 이미지 단위 방법의 장점을 자연스럽게 계승하면서도 빠른 디코딩 속도로 뛰어난 재구성 성능을 달성한다. 전체 방법은 위치 임베딩, MLP, CNN과 같은 전통적인 모듈을 포함하고 있으며, 중간 특징을 강화하기 위해 AdaIN을 도입한다. 이러한 간단하면서도 핵심적인 변화들은 네트워크가 고주파 세부 정보를 쉽게 학습하도록 도와준다. 광범위한 실험을 통해 PS-NeRV가 비디오 압축, 비디오 인페인팅 등 여러 비디오 관련 작업에서 효과적임을 입증하였다.