HyperAI超神经

炼金术士:将公共文本到图像数据转化为生成性黄金

Startsev, Valerii ; Ustyuzhanin, Alexander ; Kirillov, Alexey ; Baranchuk, Dmitry ; Kastryulin, Sergey
发布日期: 5/27/2025
炼金术士:将公共文本到图像数据转化为生成性黄金
摘要

预训练赋予了文本到图像(T2I)模型广泛的世界知识,但仅凭这一点往往不足以实现高审美质量和对齐效果。因此,监督微调(SFT)对于进一步优化至关重要。然而,其有效性在很大程度上取决于微调数据集的质量。现有的公共SFT数据集通常针对狭窄的领域(例如动漫或特定的艺术风格),而创建高质量、通用的SFT数据集仍然是一个重大挑战。当前的数据集整理方法往往成本高昂且难以识别真正有影响力的样本。这一挑战因公共通用数据集的稀缺性而变得更加复杂,因为领先的模型通常依赖于大型、专有且记录不详的内部数据,阻碍了更广泛的研究进展。本文介绍了一种新的方法论,通过利用预训练生成模型作为高影响力训练样本的评估器来创建通用SFT数据集。我们应用这种方法构建并发布了“炼金术师”(Alchemist),这是一个规模较小(3,350个样本)但非常有效的SFT数据集。实验结果表明,“炼金术师”显著提高了五个公开T2I模型的生成质量,同时保留了多样性和风格。此外,我们还向公众发布了这些微调模型的权重。