FFNeRV: 동영상에 대한 흐름 지도형 프레임별 신경망 표현

신경 필드(Neural fields), 또는 좌표 기반, 암묵적 신경 표현(implicit neural representations)이라고도 불리는 기술은 다양한 신호의 표현, 생성 및 조작에 뛰어난 능력을 보여왔다. 그러나 영상 표현에 적용할 경우, 픽셀 단위의 좌표를 RGB 색상으로 매핑하는 방식은 상대적으로 낮은 압축 성능과 느린 수렴 속도 및 추론 속도를 보이고 있다. 최근에는 시간적 좌표를 전체 프레임에 매핑하는 프레임 기반 영상 표현 방식이 등장하여, 압축률과 인코딩 속도를 향상시키는 대안으로 주목받고 있다. 비록 이 방식은 전망이 밝지만, 여전히 최첨단 영상 압축 알고리즘의 성능에 도달하지 못하고 있다. 본 연구에서는 표준 영상 코덱을 영감으로 삼아, 프레임 기반 표현에 흐름 정보(Flow information)를 통합함으로써 영상 내 프레임 간 시간적 중복성을 효과적으로 활용하는 새로운 방법인 FFNeRV를 제안한다. 또한, 일차원 시간 그리드를 활용하여 완전 컨볼루션 아키텍처를 구현함으로써 공간 특징의 연속성을 개선하였다. 실험 결과, FFNeRV는 프레임 기반 표현 또는 신경 필드를 사용하는 기법들 중에서 영상 압축 및 프레임 보간에서 최고의 성능을 달성하였다. 모델 크기를 더욱 줄이기 위해, 그룹 컨볼루션과 포인트웨이즈 컨볼루션을 활용한 보다 컴팩트한 컨볼루션 아키텍처를 설계하였다. 양자화 인식 훈련(quantization-aware training)과 엔트로피 코딩(entropy coding)과 같은 모델 압축 기술을 적용함으로써, FFNeRV는 널리 사용되는 표준 영상 코덱(H.264 및 HEVC)을 초월하며, 최첨단 영상 압축 알고리즘과 경쟁 가능한 성능을 보였다.