5 小时前

Junyao Gao Sibo Liu Jiaxing Li Yanan Sun Yuanpeng Tu Fei Shen Weidong Zhang Cairong Zhao Jun Zhang

摘要

在本文中，我们介绍了 MegaStyle，这是一个新颖且可扩展的数据策展（data curation）pipeline，旨在构建一个风格内一致（intra-style consistent）、风格间多样（inter-style diverse）且高质量的风格数据集。我们通过利用当前大型生成模型一致的“文本到图像”风格映射能力来实现这一目标，这些模型能够根据给定的风格描述生成相同风格的图像。在此基础上，我们策划了一个多样化且平衡的 prompt 库，其中包含 17 万个风格 prompt 和 40 万个内容 prompt，并通过内容与风格 prompt 的组合，生成了大规模风格数据集 MegaStyle-1.4M。利用 MegaStyle-1.4M，我们提出了风格监督的对比学习（style-supervised contrastive learning）方法，用以 fine-tune 一个名为 MegaStyle-Encoder 的风格编码器，从而提取具有表现力的、特定于风格的表示（representations）；此外，我们还训练了一个基于 FLUX 的风格迁移模型 MegaStyle-FLUX。广泛的实验证明了在风格数据集中保持风格内一致性、风格间多样性和高质量的重要性，同时也验证了所提出的 MegaStyle-1.4M 的有效性。此外，在 MegaStyle-1.4M 上训练后，MegaStyle-Encoder 和 MegaStyle-FLUX 能够提供可靠的风格相似度度量和具有泛化能力的风格迁移，为风格迁移社区做出了显著贡献。更多结果请访问我们的项目网站：https://jeoyal.github.io/MegaStyle/。

一句话总结

作者提出了 MegaStyle，这是一个可扩展的数据策展流水线，它利用一致的文本到图像风格映射来构建 MegaStyle-1.4M 数据集，该数据集具有高度的风格内一致性和风格间多样性。此外，他们利用风格监督的对比学习开发了 MegaStyle-Encoder 和 MegaStyle-FLUX，用于可靠的风格相似度测量和可泛化的风格迁移。

核心贡献

本文介绍了 MegaStyle，这是一个可扩展的数据策展流水线，利用大型生成模型一致的文本到图像映射来创建 MegaStyle-1.4M 数据集。该数据集通过结合包含 170K 个风格提示词和 400K 个内容提示词的多样化库来构建，以确保风格内一致性和风格间多样性。
提出了一种新颖的风格监督对比学习目标，用于微调 MegaStyle-Encoder，以提取具有表现力的且特定于风格的表示。与现有的基于语义的特征空间相比，这种方法能够实现更可靠的风格相似度测量。
研究人员开发了 MegaStyle-FLUX，这是一个基于 FLUX 的风格迁移模型，在 MegaStyle-1.4M 数据集上使用配对监督进行训练。实验表明，该模型实现了稳定且可泛化的风格迁移性能。

引言

图像风格迁移对于艺术生成和数字滤镜等创意应用至关重要，然而当前的方法难以将风格与内容解耦。现有方法通常依赖于自监督学习，这会导致内容泄漏，或者使用由先前的风格迁移模型生成的合成数据集，这些数据集存在多样性低、图像质量差以及单一类别内风格不一致的问题。作者利用大型生成模型一致的文本到图像映射能力来绕过这些限制。他们引入了 MegaStyle，这是一个使用大规模提示词库来生成 MegaStyle-1.4M 数据集的可扩展数据策展流水线。基于此，他们开发了用于精确风格相似度测量的 MegaStyle-Encoder 和用于稳定、可泛化风格迁移的 MegaStyle-FLUX。

数据集

数据集组成与来源 作者引入了 MegaStyle-1.4M，这是一个旨在实现高风格内一致性和风格间多样性的大规模数据集。构建过程始于两个主要的图像池：
- 风格图像池 (2M images)： 由来自 JourneyDB 的 1M 张去重图像、来自 WikiArt 的 80K 张图像以及通过 WikiArt 风格描述符过滤后的来自 LAION-Aesthetics 的 1M 张风格化图像组成。
- 内容图像池 (2M images)： 由来自 LAION-Aesthetics 的剩余非风格化图像组成。
提示词策展与过滤 为了创建一个高质量的提示词库，作者利用 VLM Qwen3-VL 来生成专门的描述：
- 风格提示词 (Style Prompts)： 这些提示词专门关注艺术方面，如色彩构成、光照分布、媒介、纹理和笔触，同时忽略内容。
- 内容提示词 (Content Prompts)： 这些提示词仅描述物体和视觉关系，不包含任何风格信息。
- 过滤与平衡： 最初的 2M 个提示词经过两阶段采样过程。首先，通过 Nemo-Curator 进行精确、模糊和语义去重，将池缩减至 1M 个提示词。其次，应用层次化 k-means 平衡算法以确保多样化的分布，最终得到 170K 个风格提示词和 400K 个内容提示词。
数据集生成与使用 最终的 MegaStyle-1.4M 数据集使用 Qwen-Image 一致的文本到图像映射能力进行合成：
- 生成策略： 对于每个风格提示词，作者随机采样 $N$ 个内容提示词，以创建多个内容与风格的组合。
- 最终输出： 该过程生成了 1.4M 张图像，这些图像共享相同的风格描述符，但描绘不同的语义内容。
- 训练应用： 生成的风格内一致的配对用于训练 MegaStyle-FLUX 等模型，以捕捉细粒度的风格细微差别，如笔触和纹理。

方法

作者采用了一个两阶段的风格迁移框架，首先是数据策展流水线，然后是 MegaStyle-FLUX 模型的设计。如下文图示所示，数据策展过程始于从 LAION-Aesthetics、WikiArt 和 JourneyDB 等开源数据集中收集内容和风格图像。然后，这些图像通过使用 Qwen3-VL 的提示词生成阶段进行处理，该阶段根据精心设计的指令模板生成内容和风格描述。内容提示词专注于物体关系和视觉属性而不含风格元素，而风格提示词则强调艺术特征，如色彩构成、光照分布、媒介、纹理和笔触。为了确保多样性和平衡，作者采用了层次化采样策略，按语义相似度对提示词进行分组，并从每个簇中进行采样，以形成平衡的内容与风格组合集。随后，这些组合通过 Qwen-Image 生成风格图像，从而得到一个适合训练风格迁移模型的配对内容与风格图像数据集。

所提方法的核心涉及训练一个专门的风格编码器 MegaStyle-Encoder，以提取特定于风格的表示。之前的方法依赖于针对语义对齐进行优化的视觉语言模型 (VLMs)，这可能无法有效地捕获风格。为了解决这个问题，作者引入了在 MegaStyle-1.4M 数据集上训练的风格监督对比学习 (SSCL) 目标，该数据集提供了风格内一致且风格间多样化的图像对。训练目标将监督对比学习 (SCL) 与图像文本对比损失相结合。对于图像风格提示词对，SCL 损失鼓励编码器为共享相同风格的图像生成相似的表示，同时推开不同风格的表示。图像文本对比损失通过将图像特征与其对应的风格提示词嵌入对齐，进一步正则化模型。该编码器基于 SigLIP 架构，使用 8,192 的大 batch size 进行微调，以增强负样本的多样性并防止模型学习到平凡的线索。在此过程中，仅更新图像编码器参数。

风格迁移模型 MegaStyle-FLUX 构建在 FLUX 文本到图像 (T2I) 模型之上，旨在将风格从参考图像迁移到由文本提示词指定的目标内容。如下文图示所示，该框架将参考风格图像和内容提示词作为输入。参考风格图像通过 FLUX 的 VAE 进行编码并切片为视觉 tokens。然后，这些风格 tokens 与噪声图像 tokens 以及源自内容提示词的文本 tokens 进行拼接。组合后的 tokens 被输入到扩散 Transformer (MM-DiT) 主干网络中，从而生成风格化输出。为了防止位置冲突和跨图像注意力偏差，对参考风格 tokens 应用了偏移 RoPE。在训练期间，仅更新扩散 Transformer，而所有其他组件保持冻结。这种方法使 MegaStyle-FLUX 能够通过利用大规模 MegaStyle-1.4M 数据集实现可泛化且稳定的风格迁移。

实验

评估利用自定义的 StyleRetrieval 基准测试来测试 MegaStyle-Encoder 提取特定风格表示的能力，并使用文本对齐、风格相似度和人类偏好将 MegaStyle-FLUX 模型与最先进的方法进行比较。结果表明，MegaStyle-Encoder 通过避免其他模型中常见的语义内容偏差，提供了卓越的风格检索能力。此外，MegaStyle-FLUX 实现了高度稳定且可泛化的风格迁移，在有效平衡文本对齐与风格准确性的同时，避免了现有方法中出现的内容泄漏或有限的色彩迁移问题。

作者在检索基准测试中将 MegaStyle-Encoder 与其他风格编码器进行了比较，结果显示它在不同主干网络下的 mAP 和 Recall 指标上均取得了卓越的性能。结果表明 MegaStyle-Encoder 一致优于其他方法，证明了其在提取特定风格表示方面的有效性。在所有主干网络中，MegaStyle-Encoder 的 mAP 和 Recall 分数均高于所有其他方法。在风格检索任务中，MegaStyle-Encoder 的表现优于 CLIP、CSD 和 SigLIP。该模型在 ViT-L 和 SoViT 主干网络上均表现出强大的性能，展示了跨架构的鲁棒性。

作者在多个基准测试中将 MegaStyle-Encoder 与 CLIP 和 CSD 进行了比较。结果显示，MegaStyle-Encoder 在所有评估指标和数据集的风格检索中均取得了卓越的性能，证明了其在提取特定风格表示方面的有效性。在所有基准测试和指标上，MegaStyle-Encoder 均优于 CLIP 和 CSD。在多个数据集的风格检索中，MegaStyle-Encoder 获得了最高分。该模型在 mAP 和 Recall 方面较基线模型表现出一致的性能提升。

作者将 MegaStyle-FLUX 与其他风格迁移方法进行了比较，结果显示它实现了最高的文本对齐度和具有竞争力的风格对齐度。结果表明，MegaStyle-FLUX 在将生成图像与文本提示词对齐方面优于基线模型，同时保持了强大的风格表示。在所有方法中，MegaStyle-FLUX 获得了最高的文本对齐分数。MegaStyle-FLUX 展示了强大的风格对齐能力，在对比中排名第二。在将生成图像与文本描述对齐方面，MegaStyle-FLUX 优于其他方法。

该表比较了不同的风格数据集在风格和文本对齐指标上的表现。MegaStyle-1.4M 在两项指标上均获得了最高分，证明了其在提供高质量风格和文本对齐方面的有效性。在风格对齐方面，MegaStyle-1.4M 优于其他数据集；MegaStyle-1.4M 获得了最高的文本对齐分数；与 JourneyDB 和 OmniStyle-150K 相比，MegaStyle-1.4M 表现出更优越的性能。

该表基于风格内一致性、风格数量和图像总数比较了不同的风格数据集。MegaStyle-1.4M 实现了高风格内一致性以及大量的风格和图像数量，在这些方面优于其他数据集。MegaStyle-1.4M 实现了高风格内一致性；MegaStyle-1.4M 拥有大量的风格和图像；其他数据集缺乏风格内一致性，或者风格和图像数量较少。

作者通过检索基准测试、风格迁移比较和数据集分析来评估 MegaStyle 框架，以验证其在捕获特定风格表示方面的有效性。结果表明，MegaStyle-Encoder 在各种主干网络下始终优于现有方法，而 MegaStyle-FLUX 在风格迁移过程中实现了卓越的文本对齐。此外，结果显示，与现有数据集相比，MegaStyle-1.4M 数据集提供了更高质量的风格和文本对齐，以及更高的风格内一致性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

5 小时前

Junyao Gao Sibo Liu Jiaxing Li Yanan Sun Yuanpeng Tu Fei Shen Weidong Zhang Cairong Zhao Jun Zhang

摘要

一句话总结

核心贡献

本文介绍了 MegaStyle，这是一个可扩展的数据策展流水线，利用大型生成模型一致的文本到图像映射来创建 MegaStyle-1.4M 数据集。该数据集通过结合包含 170K 个风格提示词和 400K 个内容提示词的多样化库来构建，以确保风格内一致性和风格间多样性。
提出了一种新颖的风格监督对比学习目标，用于微调 MegaStyle-Encoder，以提取具有表现力的且特定于风格的表示。与现有的基于语义的特征空间相比，这种方法能够实现更可靠的风格相似度测量。
研究人员开发了 MegaStyle-FLUX，这是一个基于 FLUX 的风格迁移模型，在 MegaStyle-1.4M 数据集上使用配对监督进行训练。实验表明，该模型实现了稳定且可泛化的风格迁移性能。

引言

数据集

数据集组成与来源 作者引入了 MegaStyle-1.4M，这是一个旨在实现高风格内一致性和风格间多样性的大规模数据集。构建过程始于两个主要的图像池：
- 风格图像池 (2M images)： 由来自 JourneyDB 的 1M 张去重图像、来自 WikiArt 的 80K 张图像以及通过 WikiArt 风格描述符过滤后的来自 LAION-Aesthetics 的 1M 张风格化图像组成。
- 内容图像池 (2M images)： 由来自 LAION-Aesthetics 的剩余非风格化图像组成。
提示词策展与过滤 为了创建一个高质量的提示词库，作者利用 VLM Qwen3-VL 来生成专门的描述：
- 风格提示词 (Style Prompts)： 这些提示词专门关注艺术方面，如色彩构成、光照分布、媒介、纹理和笔触，同时忽略内容。
- 内容提示词 (Content Prompts)： 这些提示词仅描述物体和视觉关系，不包含任何风格信息。
- 过滤与平衡： 最初的 2M 个提示词经过两阶段采样过程。首先，通过 Nemo-Curator 进行精确、模糊和语义去重，将池缩减至 1M 个提示词。其次，应用层次化 k-means 平衡算法以确保多样化的分布，最终得到 170K 个风格提示词和 400K 个内容提示词。
数据集生成与使用 最终的 MegaStyle-1.4M 数据集使用 Qwen-Image 一致的文本到图像映射能力进行合成：
- 生成策略： 对于每个风格提示词，作者随机采样 $N$ 个内容提示词，以创建多个内容与风格的组合。
- 最终输出： 该过程生成了 1.4M 张图像，这些图像共享相同的风格描述符，但描绘不同的语义内容。
- 训练应用： 生成的风格内一致的配对用于训练 MegaStyle-FLUX 等模型，以捕捉细粒度的风格细微差别，如笔触和纹理。

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

Junyao Gao Sibo Liu Jiaxing Li Yanan Sun Yuanpeng Tu Fei Shen Weidong Zhang Cairong Zhao Jun Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

Junyao Gao Sibo Liu Jiaxing Li Yanan Sun Yuanpeng Tu Fei Shen Weidong Zhang Cairong Zhao Jun Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MegaStyle：通过一致性 Text-to-Image Style Mapping 构建多样化且可扩展的 Style Dataset

Junyao Gao Sibo Liu Jiaxing Li Yanan Sun Yuanpeng Tu Fei Shen Weidong Zhang Cairong Zhao Jun Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters