HVS 재검토: 종합적인 비디오 품질 평가 프레임워크

영상 품질은 영상 서비스 제공자들에게 핵심적인 고려 사항이다. 최근 들어, 심층 합성곱 신경망(Convolutional Neural Networks, CNNs) 기반의 영상 품질 평가(Video Quality Assessment, VQA) 기술이 급속도로 발전해왔다. 기존의 연구들은 인간 시각 시스템(Human Visual System, HVS)의 지식을 VQA에 도입하려는 시도를 하고 있으나, 여전히 HVS의 잠재력을 충분히 활용하지 못하는 한계를 지니고 있다. 이러한 한계는 단순한 특성 수의 제한으로 인한 모델의 불완전성과, 각 특성 간의 연결이 부족하기 때문이며, 이를 보완하기 위해 본 논문에서는 인간 시각 시스템을 다섯 가지 대표적인 특성으로 재검토하고, 이들 특성 간의 관계를 재구성하였다. 이를 바탕으로, 다섯 가지 특성을 모방하는 다섯 개의 모듈을 포함한 비참조 영상 품질 평가(NR-VQA) 프레임워크인 HVS-5M(HVS-5M: NRVQA framework with five modules simulating HVS with five characteristics)을 제안한다. HVS-5M는 고도화된 네트워크 구조를 갖춘 도메인 융합 설계 원리에 기반하여 동작한다. 공간 도메인에서는 시각적 주목성 모듈이 SAMNet을 활용하여 주목성 맵을 생성하고, 이후 콘텐츠 의존성 모듈과 에지 마스킹 모듈이 각각 ConvNeXt를 사용하여 공간적 특징을 추출한다. 이때, 주목성 맵에 의해 주의가 조절된 특징을 통해 인간이 관심을 가질 가능성이 높은 영역을 강조한다. 반면 시간 도메인에서는 정적인 공간적 특징을 보완하기 위해 운동 인지 모듈이 SlowFast을 활용하여 동적 시간적 특징을 추출한다. 또한, 시간적 히스테리시스 모듈은 TempHyst를 사용하여 인간의 기억 메커니즘을 시뮬레이션하고, 공간적 및 시간적 도메인에서 융합된 특징을 종합적으로 기반으로 품질 점수를 평가한다. 광범위한 실험 결과는 제안된 HVS-5M가 최신 기술 대비 우수한 성능을 보임을 입증한다. 추가로 수행된 제거 실험(Ablation study)을 통해 각 모듈이 제안된 프레임워크에 기여하는 효과를 확인하였다.