11일 전

DisCoVQA: 비디오 품질 평가를 위한 시계열 왜곡-콘텐츠 트랜스포머

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Weisi Lin
DisCoVQA: 비디오 품질 평가를 위한 시계열 왜곡-콘텐츠 트랜스포머
초록

프레임 간의 시간적 관계와 그 영상 품질 평가(VQA)에 미치는 영향은 기존 연구에서 여전히 충분히 탐구되지 않은 분야이다. 이러한 시간적 관계는 영상 품질에 대해 두 가지 중요한 유형의 영향을 초래한다. 첫째, 진동, 깜빡임, 급격한 장면 전환과 같은 일부 시간적 변동은 시간적 왜곡을 유발하여 추가적인 품질 저하를 초래하지만, 의미 있는 사건과 관련된 다른 변동은 그렇지 않다. 둘째, 인간 시각 시스템은 콘텐츠가 다른 프레임에 대해 다양한 주의를 기울이기 때문에, 각 프레임이 전체 영상 품질에 미치는 중요성이 달라진다. 트랜스포머의 뛰어난 시계열 모델링 능력을 기반으로, 이러한 두 가지 문제를 해결하기 위한 새로운 효과적인 트랜스포머 기반 VQA 방법을 제안한다. 시간적 변동을 더 정확히 구분하여 시간적 왜곡을 효과적으로 포착하기 위해, 트랜스포머 기반의 공간-시간 왜곡 추출(STDE) 모듈을 설계하였다. 또한 시간적 품질 주의를 다루기 위해 인코더-디코더 구조를 모방한 시간적 콘텐츠 트랜스포머(TCT)를 제안한다. 더불어 TCT의 입력 길이를 줄이기 위해 특징에 대한 시간 샘플링 기법을 도입함으로써, 이 모듈의 학습 효과성과 효율성을 향상시켰다. STDE와 TCT를 포함하는 본 연구에서 제안하는 시간적 왜곡-콘텐츠 트랜스포머(DisCoVQA)는 추가적인 사전 훈련 데이터셋 없이도 여러 VQA 벤치마크에서 최신 기준(SOTA) 성능을 달성하였으며, 기존 방법 대비 최대 10% 높은 일반화 능력을 보였다. 또한 제안된 모델의 각 구성 요소의 효과를 입증하기 위해 광범위한 아블레이션 실험을 수행하였으며, 시각화를 통해 제안된 모듈이 시간적 문제를 의도한 대로 모델링함을 확인하였다. 코드와 사전 훈련된 가중치는 향후 공개할 예정이다.

DisCoVQA: 비디오 품질 평가를 위한 시계열 왜곡-콘텐츠 트랜스포머 | 최신 연구 논문 | HyperAI초신경