2달 전
Q-Align: 이산 텍스트 정의 수준을 통해 시각적 점수 매기기를 위한 LMM 교육
Wu, Haoning ; Zhang, Zicheng ; Zhang, Weixia ; Chen, Chaofeng ; Liao, Liang ; Li, Chunyi ; Gao, Yixuan ; Wang, Annan ; Zhang, Erli ; Sun, Wenxiu ; Yan, Qiong ; Min, Xiongkuo ; Zhai, Guangtao ; Lin, Weisi

초록
온라인에서 제공되는 시각적 콘텐츠의 급증은 다양한 유형의 시각적 콘텐츠에 대해 견고하게 점수를 평가할 수 있는 정확한 기계 평가자의 필요성을 강조합니다. 최근 연구들은 대규모 다중 모드 모델(LMMs)이 관련 분야 전반에서 뛰어난 잠재력을 보여주었지만, 본 연구에서는 인간의 의견과 일치하는 시각적 평가를 위해 이러한 모델들을 어떻게 가르칠 수 있는지 탐구합니다. 주관적 연구에서 인간 평가자들이 단순히 텍스트로 정의된 이산적인 수준을 학습하고 판단한다는 사실을 관찰하면서, 우리는 이 주관적인 과정을 모방하여 점수 대신 텍스트로 정의된 등급 수준으로 LMMs를 가르치는 방법을 제안합니다. 제안된 Q-Align은 원래 LMM 구조 하에서 이미지 품질 평가(IQA), 이미지 미학 평가(IAA) 및 비디오 품질 평가(VQA) 작업에서 최고 수준의 성능을 달성합니다. 이를 통해 우리는 세 가지 작업을 하나의 모델인 OneAlign로 통합하였습니다. 실험 결과, 우리는 이산 등급 기반 교육 과정이 직접 점수 기반 변형보다 LMMs에 있어 우위임을 입증하였습니다. 우리의 코드와 사전 학습된 가중치는 https://github.com/Q-Future/Q-Align 에서 공개되었습니다.