HyperAI超神经

RefVNLI:面向可扩展的主题驱动文本到图像生成评估

Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
发布日期: 4/28/2025
RefVNLI:面向可扩展的主题驱动文本到图像生成评估
摘要

主题驱动的文本到图像(T2I)生成旨在根据给定的文本描述生成图像,同时保留参考主体图像的视觉特征。尽管该技术在多个下游应用中具有广泛的应用前景——从增强图像生成的个性化到视频渲染中的一致角色表示——但其进展受到缺乏可靠的自动评估方法的限制。现有的评估方法要么仅评估任务的一个方面(即文本对齐或主体保留),要么与人类判断存在偏差,或者依赖昂贵的基于API的评估。为了解决这一问题,我们引入了RefVNLI,这是一种成本效益高的指标,能够在单次预测中同时评估文本对齐和主体保留。RefVNLI在大规模数据集上进行训练,该数据集来源于视频推理基准测试和图像扰动。在多个基准测试和主体类别(如动物、物体)中,RefVNLI的表现优于或匹敌现有基线方法,最高可提升6.4个百分点的文本对齐性能和8.5个百分点的主体一致性性能。此外,RefVNLI在处理较少为人所知的概念时也表现出色,以超过87%的准确率与人类偏好保持一致。