2 个月前

Q-Align:通过离散文本定义水平教授LMMs进行视觉评分

Wu, Haoning ; Zhang, Zicheng ; Zhang, Weixia ; Chen, Chaofeng ; Liao, Liang ; Li, Chunyi ; Gao, Yixuan ; Wang, Annan ; Zhang, Erli ; Sun, Wenxiu ; Yan, Qiong ; Min, Xiongkuo ; Zhai, Guangtao ; Lin, Weisi
Q-Align:通过离散文本定义水平教授LMMs进行视觉评分
摘要

在线视觉内容的激增突显了对准确的机器评估器的需求,以稳健地评估各种类型视觉内容的评分。尽管最近的研究表明,大型多模态模型(LMMs)在相关领域的广泛范围内展现出卓越的潜力,但在这项工作中,我们探讨了如何教导这些模型进行与人类意见一致的视觉评分。观察到人类评分员在主观研究中仅学习和判断由离散文本定义的等级,我们提出模拟这一主观过程,并使用文本定义的评分等级而非具体分数来训练LMMs。所提出的Q-Align方法在图像质量评估(IQA)、图像美学评估(IAA)以及视频质量评估(VQA)任务中,在原始LMM结构下实现了最先进的性能。通过课程设置,我们将这三项任务进一步统一到一个模型中,称为OneAlign。在我们的实验中,我们展示了基于离散等级的课程设置相对于直接基于分数的方法对于LMMs的优势。我们的代码和预训练权重已发布在https://github.com/Q-Future/Q-Align。

Q-Align:通过离散文本定义水平教授LMMs进行视觉评分 | 最新论文 | HyperAI超神经