Command Palette

Search for a command to run...

6 小时前

UltraFlux:面向跨多种纵横比的高质量原生4K文本到图像生成的数据-模型协同设计

Tian Ye Song Fei Lei Zhu

UltraFlux:面向跨多种纵横比的高质量原生4K文本到图像生成的数据-模型协同设计

摘要

扩散 Transformer(Diffusion Transformers,简称 DiT)近期在约 1K 分辨率的文本生成图像任务中表现卓越,但我们发现,若将其扩展至原生 4K 分辨率并涵盖多种长宽比,会暴露出一种涉及位置编码、VAE 压缩及优化过程的紧密耦合失效模式。单纯针对其中任一因素进行孤立处理,都将严重制约最终的生成质量。因此,我们采用数据与模型协同设计(data-model co-design)的视角,推出了 UltraFlux。这是一种基于 Flux 架构的 DiT 模型,在 MultiAspect-4K-1M 数据集上进行了原生 4K 训练。该数据集包含 100 万张 4K 图像,具备受控的多长宽比(multi-AR)覆盖范围、双语图文标注以及丰富的 VLM/IQA 元数据,旨在支持感知分辨率与长宽比的采样策略。在模型架构方面,UltraFlux 整合了以下关键技术:(i) 融合 YaRN 的共振二维旋转位置编码(Resonance 2D RoPE),实现了针对 4K 分辨率的训练窗口、频率及长宽比感知的位置编码;(ii) 一种简练的非对抗性 VAE 后训练(post-training)方案,有效提升了 4K 图像的重建保真度;(iii) 信噪比感知 Huber 小波损失函数(SNR-Aware Huber Wavelet objective),用于在不同时间步和频带间重新平衡梯度;(iv) 阶段性美学课程学习(Stage-wise Aesthetic Curriculum Learning)策略,该策略依据模型先验,将高美学质量的监督信号集中于高噪声阶段。上述组件协同作用,构建了一个稳定且具备细节保留能力的 4K DiT 模型,能够良好地泛化至宽幅、方形及竖幅等多种长宽比场景。在 Aesthetic-Eval @ 4096 基准测试及多长宽比 4K 环境下,UltraFlux 在保真度、美学质量及图文对齐度等指标上均持续优于强劲的开源基线模型;若配合大语言模型(LLM)提示词润色工具,其表现甚至可匹敌或超越专有的 Seedream 4.0 模型。

总结

来自香港科技大学(广州)和香港科技大学的研究人员推出了 UltraFlux,这是一种原生 4K 扩散 Transformer,利用 MultiAspect-4K-1M 数据集,并集成了 Resonance 2D RoPE 与 YaRN、VAE 后训练以及 SNR-Aware Huber Wavelet 目标函数,以克服优化瓶颈,实现媲美专有模型的高保真文生图效果。

简介

扩散 Transformer (DiTs) 在 1K 分辨率下已实现了令人印象深刻的保真度,但扩展这些模型以生成跨多种长宽比的原生 4K 图像面临着独特的工程障碍。简单地提高分辨率通常会导致标准的 2D 旋转嵌入发生漂移或混叠,而激进的 VAE 压缩往往会抹去对 4K 感知至关重要的精细高频细节。此外,标准的优化目标难以应对 4K 潜变量的统计不平衡问题,即低频数据主导梯度并掩盖了精细纹理。

先前的方法试图通过免训练上采样或分块扩散来缓解这些问题,但这些方法通常会引入连贯性差距,或无法解决极端分辨率下位置编码的根本不稳定性。数据限制也阻碍了进展;现有的公共 4K 数据集相对较小,偏向于横向构图,且缺乏现代生成式训练所需的丰富、结构化的元数据。

作者通过推出 UltraFlux 来解决这些耦合的挑战,这是一个针对原生 4K 生成协同设计数据集和模型架构的系统。他们贡献了 MultiAspect-4K-1M,这是一个包含 100 万张高质量 4K 图像的精选数据集,具有全面的 VLM 生成标题和美学评分。通过在这个专用语料库上训练基于 Flux 的主干网络,他们在不依赖超分辨率级联的情况下实现了最先进的保真度和对齐度。

UltraFlux 框架的关键创新包括:

  • Resonance 2D RoPE with YaRN: 一种专门的位置编码方案,可防止相位漂移和混叠,使模型能够在原生 4K 分辨率和广泛变化的长宽比下保持结构稳定性。
  • SNR-Aware Huber Wavelet Objective: 一种新颖的损失函数,旨在处理 4K 潜变量的重尾统计特性,平衡优化过程,使主导的低频能量不会抑制高频细节的学习。
  • Stage-wise Aesthetic Curriculum Learning (SACL): 一种两阶段训练策略,专门将高美学监督集中在高噪声时间步上,有效地优化模型的全局先验,同时允许标准数据指导局部细节生成。

数据集

数据集构成与来源 作者推出了 MultiAspect-4K-1M,该语料库旨在解决现有公共 4K 数据集中存在的长宽比覆盖范围和主体平衡方面的差距。

  • 来源池: 该数据集是从最初约 600 万张高分辨率图像池中筛选出来的,这些图像最初严重偏向于风景。
  • 最终构成: 最终数据集包含 100 万张具有原生 4K 分辨率、多样长宽比(包括 1:1、16:9、3:2 和 9:16)以及风景、物体和人物主体平衡混合的图像。

子集与过滤流程 为了构建最终数据集,作者采用了双通道流程,将通用筛选路径与针对性的人本增强路径相结合。

  • 通用 AR 感知通道: 该子集强制要求原生 4K 分辨率(总像素至少 3840x2160)和广泛的长宽比覆盖。
  • 以人为中心的增强: 为了纠正人物代表性不足的问题,该路径检索与人相关的图像,并使用 YOLOE 进行验证,这是一个可提示的开放词汇检测器,用于确保存在结构化的人类证据。
  • VLM 驱动的过滤: 两个通道都经过严格过滤,使用 Q-Align 进行语义质量评估(保留分数 >4.0> 4.0>4.0)和 ArtiMuse 进行美学评估(保留前 30%)。
  • 纹理护栏: 使用经典信号处理去除低纹理图像。这包括基于 Sobel 的平坦度检测器(去除 >50%> 50\%>50% 的图块为平坦的图像)和香农熵过滤器(去除值 <7.0< 7.0<7.0 的图像)。

处理与元数据 作者优先考虑原生分辨率和丰富的元数据,以促进灵活的训练和分析。

  • 无裁剪策略: 该流程保留每张图像的原生长宽比而不调整大小,确保数据无伪影。
  • 双语标注: 使用 Gemini-2.5-Flash 生成详细的英文标题,随后使用 Hunyuan-MT-7B 翻译成中文。
  • 元数据构建: 每张图像都标记有分辨率详情、VLM 质量/美学评分、经典纹理信号以及针对人类主体的特定 character 标记。
  • 用途: 这些元数据字段作为分析标签和文生图训练期间分层采样的键,允许进行透明审计和数据-模型协同设计。

方法

作者利用 Flux Transformer 架构作为 UltraFlux 的基础,专注于三个关键组件以实现高效且高保真的原生 4K 图像生成:VAE、位置表示和训练目标。整体框架旨在有效扩展模型,同时保持跨多种分辨率和长宽比的性能。支撑模型训练的数据流程始于大量互联网数据池,经过一系列阶段过滤,生成精选的 MultiAspect-4K-1M 数据集。该数据集随后用于训练模型组件,最终输出既美观又结构连贯的高分辨率图像。

VAE 组件针对高分辨率重建保真度进行了优化。作者采用了 F16 VAE,与原始 F8 VAE 相比降低了潜变量分辨率,从而提高了计算效率。为了增强解码器在 4K 分辨率下重建精细细节的能力,在 MultiAspect-4K-1M 语料库上进行了后训练阶段。该阶段通过结合小波重建损失和特征空间感知损失专注于改善高频内容,同时避免使用对抗项,因为它们容易导致优化不稳定。数据筛选过程也至关重要,因为它允许通过相对较少数量的精心挑选、细节丰富的图像获得显著的重建增益,使后训练阶段既高效又有效。

位置表示通过引入 Resonance 2D RoPE 来解决,这是一种改进的旋转位置嵌入,可增强在更高分辨率和不同长宽比下推理时的稳定性。基线 Flux 模型使用固定的逐轴旋转谱,在推断到更大分辨率时会导致相位漂移和伪影。Resonance 2D RoPE 在有限的训练窗口上重新解释 2D 旋转谱,将每个频率分量完成的周期数捕捉到最近的非零整数。这确保了位置编码具有训练窗口感知能力,并防止分数周期相位误差的累积,这些误差表现为空间漂移和条纹伪影。该方法通过 YaRN 风格的外推方案得到进一步增强,该方案利用共振周期计数来确定给定外推因子下每个频带的缩放比例,从而使位置编码具有频带感知和长宽比感知能力。

训练目标旨在解决原生 4K 分辨率下标准基于 L2L_2L2 的训练中常见的频率不平衡、时间步不平衡和跨尺度能量耦合挑战。作者引入了 SNR-Aware Huber Wavelet (SAHW) 目标函数,该函数结合了鲁棒的伪 Huber 惩罚和自适应阈值,该阈值在高噪声下较小,随着信号主导而增大。该目标在小波空间中测量,解耦了低频和高频带,从而能够更有效地处理高频残差。通过使用 Min-SNR 加权进一步平衡跨时间步的损失,该加权强调中等 SNR 时间步以实现稳定且更快的优化。最终目标是标准流匹配损失的直接替代品,专为原生 4K 生成的具体需求量身定制。

实验

  • 与开源方法的定量比较: 在 Aesthetic-Eval@4096 基准上的评估表明,UltraFlux 在 FID、HPSv3、PickScore 和 Q-Align 等指标上匹配或超越了基线(ScaleCrafter、FouriScale、Sana、Diffusion-4K)。
  • 基于 Gemini 的偏好研究: 在使用 Gemini-2.5-Flash 作为裁判的成对比较中,UltraFlux 在视觉吸引力方面有 70–82% 的案例优于基线,在提示词对齐方面有 60–89% 的案例优于基线。
  • 与专有模型的比较: 当配备 GPT-4O 提示词优化器时,UltraFlux 获得了比闭源 Seedream 4.0 略高的 HPSv3 分数(12.03 对 11.98),并在 Q-Align 和 MUSIQ 指标上超越了它。
  • 消融研究结果: SNR-Aware Huber Wavelet Training (SNR-HW) 和带有 YaRN 的 Resonance 2D RoPE 提供了互补的增益,提供了最佳的整体配置,感知指标单调提升且 FID 降低。
  • VAE 重建分析: UltraFlux-F16-VAE 在 Aesthetic-4K@4096 集合上表现出比 Flux-VAE-F16 基线明显更好的重建质量和高频细节保留。
  • 几何稳定性和效率: 对 Resonance 2D RoPE 的分析证实它消除了基线中出现的相位不匹配和几何漂移。此外,该模型保持了与 Sana 相当的推理速度,同时在宽长宽比(例如 2:1, 2.39:1)下优于基于上采样的方法。

作者使用 MultiAspect-4K-1M 数据集训练他们的模型,该数据集包含 100.7 万张图像,平均分辨率为 4,521×4,703。与较小的 PixArt-30k 和 Aesthetic-4K 数据集相比,该数据集的特点是平均标题长度显著更长(125.1 个 token)并包含双语标题。

结果显示,UltraFlux 在多个指标上优于所有比较的开源方法,实现了最低的 FID 以及最高的 HPSv3、PickScore、ArtiMuse、CLIP Score、Q-Align 和 MUSIQ 分数。作者使用此表证明 UltraFlux 在定量和定性评估中均始终优于 ScaleCrafter、FouriScale、Sana 和 Diffusion-4K 等基线。

结果显示,UltraFlux 在 1:2 长宽比下的所有指标上均优于 Sana,实现了更低的 FID 和更高的 HPSv3、ArtiMuse 和 Q-Align 分数。在 2:1 长宽比下,UltraFlux 在 HPSv3 和 ArtiMuse 上也超过了 Sana,同时在 FID 和 Q-Align 上保持了具有竞争力的表现。

结果显示,UltraFlux 在 2.39:1 长宽比下的多个指标上优于 Sana,实现了更低的 FID 和更高的 HPSv3、ArtiMuse 和 Q-Align 分数。这表明在具有挑战性的超宽格式中具有卓越的图像质量和更好的提示词对齐。

作者在相同的 4096×4096 评估协议下,将带有提示词优化器的 UltraFlux 与专有 4K 模型 Seedream 4.0 进行了比较。结果显示,UltraFlux 获得了略高的 HPSv3 分数,并在 Q-Align 和 MUSIQ 上超过了 Seedream 4.0,这表明尽管使用了分阶段 SFT 流程而没有大规模 RL 后训练,但在语义对齐和感知质量方面仍具有具有竞争力的表现。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UltraFlux:面向跨多种纵横比的高质量原生4K文本到图像生成的数据-模型协同设计 | 论文 | HyperAI超神经