HyperAIHyperAI

Command Palette

Search for a command to run...

Diffusers 正式支持 FLUX-2,开启高效扩散模型新纪元

Hugging Face 的 Diffusers 库正式迎来 Black Forest Labs 推出的新一代开源图像生成模型 FLUX.2。该模型是 FLUX.1 系列的全面升级,采用全新架构,从零开始进行预训练,标志着图像生成技术的又一重要进展。 FLUX.2 支持文本引导和图像引导的图像生成,且可同时输入最多10张参考图像,实现更精准的多图融合生成。其核心改进包括:使用单一文本编码器 Mistral Small 3.1,替代 FLUX.1 中的双编码器结构,简化了提示嵌入计算流程,最大序列长度为512。在扩散Transformer(DiT)设计上,FLUX.2 采用“双流+并行”架构,但进行了多项优化:时间与引导信息的调制参数在所有模块间共享,取消了所有层的偏置参数,且将注意力QKV投影与前馈网络输入投影融合,形成完全并行的结构,提升了效率与稳定性。 相比 FLUX.1,FLUX.2 的单流模块占比显著提高(48个对8个),使得约73%的参数集中在单流部分,模型整体更偏向融合式处理,有助于提升生成质量与一致性。 由于模型规模庞大,原生推理需超过80GB显存。Diffusers 提供多种轻量化方案:通过 4-bit 量化(如 NF4 或 BNB)可在24GB显存设备上运行;结合远程文本编码器部署,可将显存占用降至18GB;更进一步,利用 group_offloading 技术,仅需8GB显存(配合32GB内存)即可运行,适合低资源环境。 此外,FLUX.2 支持 LoRA 微调,适用于文本到图像和图像到图像任务。通过启用远程文本编码器、梯度检查点、缓存潜在表示、FP8训练及QLoRA等技术,可大幅降低训练显存需求。官方提供训练脚本,支持使用 Hugging Face 的 accelerate 和 WandB 进行分布式训练,适用于个性化风格或特定主题(如塔罗牌)的定制化生成。 总体而言,FLUX.2 不仅是性能跃升,更通过 Diffusers 提供了灵活、可扩展的部署与训练路径,使前沿图像生成能力更易触达开发者与研究者。

相关链接