효율적인 엔드투엔드 영상 품질 평가를 위한 이웃 대표 샘플링

실제 영상의 해상도가 높아짐에 따라 딥 뷰어 품질 평가(Deep Video Quality Assessment, VQA)에서는 효율성과 정확성 사이에 딜레마가 발생한다. 한편으로는 원본 해상도를 유지할 경우 계산 비용이 수용 불가능할 정도로 증가하게 되며, 다른 한편으로는 기존의 리사이징 및 자르기(resizing 및 cropping)와 같은 기법들은 세부 정보와 콘텐츠의 손실로 인해 원본 영상의 품질을 변화시켜 품질 평가에 부정적인 영향을 미친다. 인간 시각계의 공간-시간 중복성(stochastic redundancy) 및 시각 코딩 이론에 대한 연구를 통해 우리는 주변 영역의 품질 정보가 일반적으로 유사하다는 통찰을 얻었으며, 이를 바탕으로 VQA에 효과적인 품질 민감성 주변 대표 샘플링 기법을 탐구하게 되었다. 본 연구에서는 공간-시간 격자 미니큐브 샘플링(Spatial-Temporal Grid Mini-Cube Sampling, St-GMS)이라는 통합적 샘플링 기법을 제안하여, 새로운 형태의 샘플인 '프래그먼트(fragment)'를 생성한다. 먼저 전체 해상도 영상은 사전 설정된 공간-시간 격자에 따라 미니큐브로 분할되며, 이후 시간적으로 정렬된 품질 대표 샘플들이 추출되어 프래그먼트를 구성한다. 이 프래그먼트는 VQA의 입력으로 사용된다. 또한 프래그먼트에 특화된 네트워크 아키텍처인 프래그먼트 주의망(Fragment Attention Network, FANet)을 설계하였다. 프래그먼트와 FANet을 활용함으로써 제안된 효율적인 엔드투엔드 기반의 FAST-VQA 및 FasterVQA는 기존 방법 대비 모든 VQA 벤치마크에서 훨씬 우수한 성능을 달성하면서도, 현재 최고 수준의 기법 대비 단지 1/1612의 FLOPs(연산량)만을 요구한다. 코드, 모델, 데모는 https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA 에서 제공된다.