
음성 신경 표현(implicit neural representations)은 비디오를 신경망으로 저장하여 영상 압축, 노이즈 제거 등 다양한 시각 작업에서 우수한 성능을 보여왔다. 프레임 인덱스 또는 위치 인덱스를 입력으로 사용하는 음성 표현 방식(NeRV, E-NeRV 등)은 고정된, 콘텐츠 무관한 임베딩을 기반으로 비디오를 재구성한다. 이러한 임베딩 방식은 비디오 보간 작업에서 회귀 능력과 내부 일반화 능력에 상당한 제약을 초래한다. 본 논문에서는 학습 가능한 인코더를 통해 콘텐츠 적응형 임베딩을 생성하는 하이브리드 신경 표현(Hybrid Neural Representation for Videos, HNeRV)을 제안한다. 이 콘텐츠 적응형 임베딩은 디코더의 입력으로 사용되며, 추가적으로 HNeRV 블록을 도입하여 모델 파라미터가 전체 네트워크에 균일하게 분포되도록 한다. 이를 통해 출력에 가까운 고층(높은 레이어)이 고해상도 콘텐츠와 비디오 세부 정보를 더 효과적으로 저장할 수 있는 능력을 갖게 된다. 콘텐츠 적응형 임베딩과 재설계된 아키텍처를 통해 HNeRV는 재구성 품질(PSNR +4.7)과 수렴 속도(16배 빠름) 측면에서 기존 음성 기반 방법들을 모두 상회하며, 내부 일반화 성능도 향상시켰다. 간단하고 효율적인 비디오 표현 방식으로서, HNeRV는 기존 코덱(H.264, H.265) 및 학습 기반 압축 방법 대비 디코딩 속도, 유연성, 배포 용이성 측면에서 우수한 성능을 보였다. 마지막으로, HNeRV가 영상 압축 및 영상 보정(video inpainting)과 같은 후속 작업에 얼마나 효과적인지 탐구하였다. 관련 프로젝트 페이지는 https://haochen-rye.github.io/HNeRV, 코드는 https://github.com/haochen-rye/HNeRV 에서 확인할 수 있다.