HyperAI超神经
9 days ago

无需人类参与:自主高质量图像编辑三元组挖掘

Maksim Kuprashevich; Grigorii Alekseenko; Irina Tolstykh; Georgii Fedorov; Bulat Suleimanov; Vladimir Dokholyan; Aleksandr Gordeev
无需人类参与:自主高质量图像编辑三元组挖掘
摘要

近期生成模型的进展使得图像编辑助手能够在无需额外用户输入的情况下遵循自然语言指令进行编辑。这些监督训练需要数百万个三元组:原始图像、指令和编辑后的图像。然而,挖掘像素级准确的示例非常困难。每次编辑必须仅影响指令指定的区域,同时保持风格的一致性,尊重物理合理性,并保留视觉吸引力。缺乏稳健的自动化编辑质量评估指标阻碍了大规模可靠自动化的实现。我们提出了一种自动化、模块化的管道,该管道能够在不同领域、分辨率、指令复杂度和风格中挖掘高保真三元组。基于公开的生成模型并无需人工干预运行,我们的系统使用经过任务调优的Gemini验证器直接评估指令遵循性和美学效果,从而消除了对分割或定位模型的需求。通过反演和组合引导,挖掘的数据集规模扩大了约2.2倍,实现了大规模高保真的训练数据。通过自动化最重复的标注步骤,这种方法允许在没有人工标注的情况下进行更大规模的训练。为了使这一资源密集型领域的研究更加民主化,我们发布了NHR-Edit:一个包含358,000个高质量三元组的开放数据集。在最大规模的跨数据集评估中,它超越了所有公开的数据集替代方案。我们还发布了Bagel-NHR-Edit,这是一个开源的微调Bagel模型,在我们的实验中达到了最先进的性能指标。