FAST-VQA: 조각 샘플링을 활용한 효율적인 엔드투엔드 비디오 품질 평가

현재의 딥 비디오 품질 평가(VQA) 방법은 고해상도 비디오를 평가할 때 일반적으로 높은 계산 비용을 수반한다. 이러한 비용은 엔드투엔드 학습을 통해 더 나은 비디오 품질 관련 표현을 학습하는 데 방해가 된다. 기존의 접근 방식들은 계산 비용을 줄이기 위해 단순한 샘플링 전략을 사용하는 경우가 많다. 예를 들어, 크기 조정이나 자르기(cropping)와 같은 방법이 대표적이다. 그러나 이러한 방법들은 비디오 내 품질 관련 정보를 명백히 왜곡시키며, 결과적으로 VQA를 위한 우수한 표현을 학습하는 데 최적화되지 못한다. 따라서 VQA를 위한 품질을 유지하는 새로운 샘플링 방식의 설계가 시급하다. 본 논문에서는 원본 해상도에서 패치를 샘플링함으로써 국소적 품질을 고려하고, 균일한 격자에서 샘플링된 미니패치를 통해 맥락적 관계를 통해 전역적 품질을 포괄하는 그리드 미니패치 샘플링(GMS)을 제안한다. 이 미니패치들은 시간적으로 연결 및 정렬되어 '조각(fragment)'으로 통합된다. 또한 조각을 입력으로 처리하도록 특별히 설계된 조각 주의망(Fragment Attention Network, FANet)을 구축하였다. 조각과 FANet을 결합한 본 논문에서 제안하는 VQA용 프래그먼트 샘플 트랜스포머(FAST-VQA)는 효율적인 엔드투엔드 딥 VQA를 가능하게 하며, 효과적인 비디오 품질 관련 표현을 학습할 수 있다. FAST-VQA는 1080P 고해상도 비디오에서 기존 최고 성능 기법 대비 약 10%의 정확도 향상을 달성하면서도, 연산량(FLOPs)을 99.5% 감소시켰다. 새로 학습된 비디오 품질 관련 표현은 더 작은 VQA 데이터셋으로도 전이 가능하며, 이러한 환경에서 성능을 향상시킬 수 있다. 광범위한 실험을 통해 FAST-VQA가 다양한 해상도의 입력에서도 우수한 성능을 발휘하면서도 높은 효율성을 유지함을 확인하였다. 코드는 https://github.com/timothyhtimothy/FAST-VQA 에 공개하였다.