7일 전
MUSIQ: 다중 스케일 이미지 품질 트랜스포머
Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, Feng Yang

초록
이미지 품질 평가(Image Quality Assessment, IQA)는 시각적 경험을 이해하고 향상시키기 위한 중요한 연구 주제이다. 현재 최첨단의 IQA 방법들은 합성곱 신경망(Convolutional Neural Networks, CNNs)에 기반하고 있다. 그러나 CNN 기반 모델의 성능은 배치 학습 시 고정된 형태 제약(fixed shape constraint)으로 인해 종종 저하된다. 이를 보완하기 위해 일반적으로 입력 이미지가 고정된 크기로 리사이즈 및 자르는 방식을 사용하게 되는데, 이 과정에서 이미지 품질이 저하되는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 연구에서는 다양한 크기와 종횡비를 가진 원본 해상도 이미지를 처리할 수 있는 다중 해상도 이미지 테이블러(MUSIQ: Multi-scale Image Quality Transformer)를 설계하였다. 다중 해상도 이미지 표현을 통해 제안된 방법은 이미지 품질을 다양한 세부 수준에서 포착할 수 있다. 또한, 다중 해상도 표현에서의 위치 임베딩(Positional Embedding)을 지원하기 위해 새로운 해시 기반 2차원 공간 임베딩과 스케일 임베딩을 제안하였다. 실험 결과, 본 방법이 PaQ-2-PiQ, SPAQ, KonIQ-10k와 같은 여러 대규모 IQA 데이터셋에서 최첨단 성능을 달성함을 입증하였다.