2BiVQA: UGC 영상의 비디오 품질 평가를 위한 이중 Bi-LSTM 기반 접근법

최근 모바일 기기와 동영상 공유 플랫폼(예: YouTube, Facebook, TikTok, Twitch 등)의 보급이 증가함에 따라, 사용자 생성 콘텐츠(User-Generated Content, UGC) 영상은 점점 더 흔해졌으며, 인터넷 상의 멀티미디어 트래픽에서 큰 비중을 차지하고 있다. 영화 제작자나 영상 제작자들이 제작하는 전문적 콘텐츠와 달리, 일반적으로 UGC 영상은 사용자가 촬영 및 처리 과정에서 무의식적으로 유발하는 다양한 진실성 없는 왜곡을 포함하고 있다. 이러한 UGC 영상의 품질 예측은 호스팅 플랫폼에서 코딩, 트랜스코딩, 스트리밍 등 영상 처리를 최적화하고 모니터링하는 데 있어 매우 중요하다. 그러나 UGC 영상의 블라인드 품질 예측은 원본 참조(reference)가 제공되지 않으며, 영상 품질 저하 유형이 알려지지 않고 매우 다양하기 때문에 매우 도전적인 과제이다. 따라서 본 논문에서는 UGC 영상에 대해 정확하고 효율적인 블라인드 영상 품질 평가(BVQA, Blind Video Quality Assessment) 모델을 제안한다. 이 모델은 '이중 Bi-LSTM 영상 품질 평가(2BiVQA)'라는 이름을 가진다. 2BiVQA는 세 가지 주요 블록으로 구성되며, 먼저 사전 학습된 합성곱 신경망(Convolutional Neural Network, CNN)을 통해 이미지 패치에서 구분력 있는 특징을 추출하고, 이를 두 개의 순환 신경망(Recurrent Neural Network, RNN)에 입력하여 공간적 및 시간적 풀링을 수행한다. 구체적으로, 두 개의 양방향 장기 단기 기억망(Bi-directional Long Short Term Memory, Bi-LSTM)을 활용하며, 첫 번째 Bi-LSTM은 이미지 패치 간의 짧은 거리 상관관계를 모델링하고, 두 번째 Bi-LSTM은 프레임 간의 장기적 상관관계를 포착하여 시간적 기억 효과를 반영한다. 최근의 대규모 UGC VQA 데이터셋을 대상으로 수행한 실험 결과, 2BiVQA는 대부분의 최신 VQA 모델보다 낮은 계산 비용으로 높은 성능을 달성함을 확인하였다. 본 연구에서 제안하는 2BiVQA 평가 지표의 소스 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/atelili/2BiVQA