패치-VQ: 비디오 품질 문제를 '패치'로 해결하다

참고 없음(No-reference, NR) 시각적 영상 품질 평가(NR-VQA)는 사회적 미디어 및 스트리밍 미디어 애플리케이션에 있어 복잡하고 해결되지 않은 중요한 문제이다. 수십억 건의 공유되며 종종 품질이 불완전한 사용자 생성 콘텐츠(User-Generated Content, UGC)의 처리를 모니터링하고 안내하기 위해 효율적이고 정확한 영상 품질 예측 모델이 필요하다. 그러나 현재의 NR 모델들은 실제 세계의 '자연스러운 환경'(in-the-wild)에서 발생하는 UGC 영상 데이터에 대해 예측 능력이 제한되어 있다. 이 문제에 대한 진전을 도모하기 위해, 우리는 지금까지 가장 큰(현저히 큰) 주관적 영상 품질 데이터셋을 구축하였으며, 이 데이터셋에는 39,000건의 실제 왜곡 영상과 117,000개의 공간-시간으로 국한된 영상 패치('v-patches') 및 550만 건의 인간 시각적 품질 평가(annotation)가 포함되어 있다. 이를 바탕으로 두 가지 독창적인 NR-VQA 모델을 개발하였다: (a) 지역에서 전반으로의 영역 기반 NR-VQA 아키텍처(PVQ)로, 전반적인 영상 품질을 예측하도록 학습하며, 3개의 UGC 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다. (b) 공간-시간 영상 품질 맵핑 엔진(PVQ Mapper)으로, 인간의 시각적 왜곡을 공간과 시간적으로 정확히 국소화하고 시각화하는 데 처음으로 도입된 기술이다. 이번 연구의 리뷰 과정을 마친 후, 새로 구축한 데이터베이스 및 예측 모델을 즉시 공개할 예정이다.