HyperAI超神经

Hugging Face 的 Diffusers 库正式迎来 Black Forest Labs 推出的新一代开源图像生成模型 FLUX.2。该模型是 FLUX.1 系列的全面升级，采用全新架构，从零开始进行预训练，标志着图像生成技术的又一重要进展。 FLUX.2 支持文本引导和图像引导的图像生成，且可同时输入最多10张参考图像，实现更精准的多图融合生成。其核心改进包括：使用单一文本编码器 Mistral Small 3.1，替代 FLUX.1 中的双编码器结构，简化了提示嵌入计算流程，最大序列长度为512。在扩散Transformer（DiT）设计上，FLUX.2 采用“双流+并行”架构，但进行了多项优化：时间与引导信息的调制参数在所有模块间共享，取消了所有层的偏置参数，且将注意力QKV投影与前馈网络输入投影融合，形成完全并行的结构，提升了效率与稳定性。相比 FLUX.1，FLUX.2 的单流模块占比显著提高（48个对8个），使得约73%的参数集中在单流部分，模型整体更偏向融合式处理，有助于提升生成质量与一致性。由于模型规模庞大，原生推理需超过80GB显存。Diffusers 提供多种轻量化方案：通过 4-bit 量化（如 NF4 或 BNB）可在24GB显存设备上运行；结合远程文本编码器部署，可将显存占用降至18GB；更进一步，利用 group_offloading 技术，仅需8GB显存（配合32GB内存）即可运行，适合低资源环境。此外，FLUX.2 支持 LoRA 微调，适用于文本到图像和图像到图像任务。通过启用远程文本编码器、梯度检查点、缓存潜在表示、FP8训练及QLoRA等技术，可大幅降低训练显存需求。官方提供训练脚本，支持使用 Hugging Face 的 accelerate 和 WandB 进行分布式训练，适用于个性化风格或特定主题（如塔罗牌）的定制化生成。总体而言，FLUX.2 不仅是性能跃升，更通过 Diffusers 提供了灵活、可扩展的部署与训练路径，使前沿图像生成能力更易触达开发者与研究者。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

Diffusers 正式支持 FLUX-2，开启高效扩散模型新纪元

相关链接

Command Palette

Diffusers 正式支持 FLUX-2，开启高效扩散模型新纪元

相关链接

Command Palette

Diffusers 正式支持 FLUX-2，开启高效扩散模型新纪元

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化