
야외 환경에서 촬영된 비디오의 품질 평가는 참조 비디오의 부재와 촬영 왜곡으로 인해 어려운 문제입니다. 인간 시각 체계에 대한 지식은 야외 환경에서 촬영된 비디오의 객관적인 품질 평가 방법을 설정하는 데 도움이 될 수 있습니다. 본 연구에서는 인간 시각 체계의 두 가지 주요 효과, 즉 컨텐츠 종속성(content-dependency)과 시간 기억 효과(temporal-memory effects)를 활용하여 이 목적을 달성할 수 있음을 보여줍니다. 우리는 이러한 두 가지 효과를 딥 신경망에 통합하여 참조 없는 비디오 품질 평가 방법을 제안합니다. 컨텐츠 종속성을 위해 사전 학습된 이미지 분류 신경망에서 그 고유한 컨텐츠 인식 특성을 활용하여 특징을 추출합니다. 시간 기억 효과를 위해서는 게이트 순환 유닛(gated recurrent unit)과 주관적으로 영감을 받은 시간 풀링 계층(subjectively-inspired temporal pooling layer)을 사용하여 장기 의존성, 특히 시간 후진성이 통합됩니다. 우리의 방법의 성능을 검증하기 위해, KoNViD-1k, CVD2014, 그리고 LIVE-Qualcomm 등 세 개의 공개 야외 비디오 품질 평가 데이터베이스에서 실험을 수행했습니다. 실험 결과는 SROCC, KROCC, PLCC 및 RMSE 측면에서 최고 성능의 두 번째 방법인 VBLIINDS보다 각각 12.39%, 15.71%, 15.45%, 18.09%의 전반적인 성능 향상을 보여주며, 제안된 방법이 다섯 가지 최신 기술(state-of-the-art methods)보다 크게 우수함을 입증하였습니다. 또한, 점진적 제거 실험(ablation study)은 컨텐츠 인식 특징과 시간 기억 효과 모델링의 결정적인 역할을 확인하였습니다. 본 연구의 PyTorch 구현은 https://github.com/lidq92/VSFA에서 제공됩니다.