11일 전

NeRV: 비디오를 위한 신경망 표현

Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava
NeRV: 비디오를 위한 신경망 표현
초록

우리는 영상을 신경망 내부에 인코딩하는 새로운 신경망 표현 방식(NeRV)을 제안한다. 기존의 영상 표현 방식이 영상을 프레임 시퀀스로 다루는 것과 달리, NeRV는 프레임 인덱스를 입력으로 받아 해당 프레임의 RGB 이미지를 출력하는 신경망으로 영상을 표현한다. 주어진 프레임 인덱스에 대해 NeRV는 해당 프레임의 RGB 이미지를 생성한다. NeRV에서 영상 인코딩은 영상 프레임에 대해 신경망을 피팅하는 것으로 단순화되며, 디코딩은 단순한 전방향 전파 연산으로 수행된다. 이미지 단위의 암묵적 표현 방식으로서 NeRV는 전체 이미지를 출력하며, 픽셀 단위의 암묵적 표현 방식에 비해 뛰어난 효율성을 보이며, 인코딩 속도를 25배에서 70배, 디코딩 속도를 38배에서 132배까지 향상시키면서도 더 높은 영상 품질을 달성한다. 이러한 표현 방식을 통해 영상을 신경망으로 간주할 수 있어 여러 영상 관련 작업을 간소화할 수 있다. 예를 들어, 기존의 영상 압축 방법은 긴 복잡한 파이프라인에 제한되며, 특정 작업에 특화되어 있다. 반면 NeRV를 사용하면 어떤 신경망 기반 압축 방법도 영상 압축의 대체 수단으로 활용할 수 있으며, 기존의 프레임 기반 영상 압축 기법(H.264, HEVC 등)과 비교해 유사한 성능을 달성할 수 있다. 압축 외에도 NeRV의 일반화 능력을 영상 노이즈 제거에 적용함을 보여주었다. 소스 코드와 사전 훈련된 모델은 https://github.com/haochen-rye/NeRV.git 에서 확인할 수 있다.

NeRV: 비디오를 위한 신경망 표현 | 최신 연구 논문 | HyperAI초신경