7일 전

다음 토큰만으로 충분하다: 다중모달 대규모 언어 모델을 활용한 현실적인 이미지 품질 및 미학 평가

Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
다음 토큰만으로 충분하다: 다중모달 대규모 언어 모델을 활용한 현실적인 이미지 품질 및 미학 평가
초록

모바일 인터넷의 급속한 확장으로 사용자 생성 콘텐츠(UGC) 이미지가 급증하면서, UGC 이미지에 대한 철저한 평가가 시급하고 필수적인 과제가 되었다. 최근 다중모달 대규모 언어 모델(MLLM)은 이미지 품질 평가(IQA) 및 이미지 미학 평가(IAA) 분야에서 큰 잠재력을 보여주고 있다. 그러나 이러한 발전에도 불구하고, UGC 이미지의 품질과 미학을 효과적으로 평가하는 데는 여전히 두 가지 주요 도전 과제가 존재한다. 첫째, 단일 점수는 인간의 계층적 인지 구조를 충분히 반영하기에 부족하다는 점이며, 둘째, MLLM이 수치적 점수(예: 평균 관찰 점수, MOS)를 출력하는 방법에 대한 명확한 해결책이 아직 마련되지 않았다는 점이다. 이러한 문제를 해결하기 위해 우리는 14,715개의 UGC 이미지로 구성된 새로운 데이터셋인 Realistic image Quality and Aesthetic(RealQA)을 제안한다. 각 이미지는 10개의 세밀한 속성으로 레이블링되어 있으며, 이 속성들은 저수준(예: 이미지 선명도), 중간수준(예: 주제의 완전성), 고수준(예: 구성)의 세 가지 계층으로 나뉜다. 또한 MLLM을 활용하여 수치적 점수를 효과적으로 예측하는 방법에 대해 체계적이고 심층적인 조사 작업을 수행하였다. 놀랍게도, 단지 두 개의 추가적인 의미 있는 자릿수를 예측하는 방식만으로도 다음 토큰 패러다임(next token paradigm)이 최신 기술(SOTA) 성능을 달성할 수 있었다. 더불어 사고의 사슬(CoT)과 학습된 세밀한 속성들을 결합한 제안된 방법은 IQA 및 IAA 분야의 다섯 개의 공개 데이터셋에서 기존 최고 성능 모델을 능가하며, 뛰어난 해석 가능성과 동영상 품질 평가(VQA)에 대한 강력한 제로샷 일반화 능력을 보였다. 본 연구의 코드와 데이터셋은 공개될 예정이다.

다음 토큰만으로 충분하다: 다중모달 대규모 언어 모델을 활용한 현실적인 이미지 품질 및 미학 평가 | 최신 연구 논문 | HyperAI초신경