6 小时前

HPSv3:面向全谱人类偏好评分

Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li
HPSv3:面向全谱人类偏好评分
摘要

评估文本到图像生成模型需要与人类感知保持一致,然而现有的以人类为中心的度量指标受限于数据覆盖范围有限、特征提取不够优化以及损失函数效率低下等问题。为应对这些挑战,我们提出了人类偏好评分v3(Human Preference Score v3,简称HPSv3)。(1)我们发布了HPDv3,这是首个涵盖广泛场景的人类偏好数据集,整合了108万对文本-图像数据,以及来自先进生成模型和从低到高质量真实图像的117万条人工标注的成对比较结果。(2)我们提出了一种基于视觉语言模型(VLM)的偏好模型,采用一种考虑不确定性的排序损失函数进行训练,以实现细粒度的图像排序。此外,我们进一步提出了“人类偏好链式优化”(Chain-of-Human-Preference,简称CoHP)方法,一种迭代式图像优化策略,在无需额外数据的前提下提升图像质量,利用HPSv3在每一步中选择最优图像。大量实验表明,HPSv3可作为广泛场景下图像质量评估的稳健度量标准,而CoHP则提供了一种高效且与人类偏好对齐的图像生成质量提升方法。代码与数据集已开放,详见HPSv3主页。

HPSv3:面向全谱人类偏好评分 | 最新论文 | HyperAI超神经