HyperAI超神经

BAGEL:多模态理解和生成的统一模型

一、教程简介

Build

BAGEL-7B-MoT 是由字节跳动 Seed 团队于 2025 年 5 月 22 日发布的开源多模态基础模型,旨在统一处理文本、图像、视频等多模态数据的理解与生成任务。 BAGEL 在多模态理解与生成、复杂推理与编辑、世界建模与导航等多模态任务中展现了全面的能力。其主要功能为视觉理解、文本到图像生成、图像编辑等。相关论文成果为「Emerging Properties in Unified Multimodal Pretraining」。

该教程算力资源采用双卡 A6000,提供 Image Generation 、 Image Generation with Think 、 Image Editing 、 Image Edit with Think 、 Image Understanding 供测试。

二、效果展示

三、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

2. 使用示例

2.1 Image Generation

具体参数:

  • Prompt:这里可以输入描述图像内容的文字,模型会根据这些文字生成图像。
  • Text Guidance Scale:控制提示对输出的影响程度。值越高影响越大。
  • Generation Steps:更多步骤等于质量更好但速度更慢。
  • Timestep Shift:控制生成进程。

结果 

2.2 Image Generation with Think

具体参数:

  • Creative Prompt:这里可以输入描述图像内容的文字,模型会根据这些文字生成图像。
  • Max Thinking Tokens:控制推理深度。
  • Text Guidance Scale:控制提示对输出的影响程度。值越高影响越大。
  • Generation Steps:更多步骤等于质量更好但速度更慢。
  • Timestep Shift:控制生成进程。

结果 

2.3 Image Editing

具体参数:

  • Upload Image:上传需要编辑的图片。
  • Edit Instruction:编辑指令。
  • Text Guidance Scale:控制提示对输出的影响程度。值越高影响越大。
  • Editing Steps:更多步骤等于质量更好但速度更慢。
  • Edit Progression:控制生成进程。
  • Image Fidelity:图像保真度,更高等于保留原始更多。

结果 

2.4 Image Edit with Think

具体参数:

  • Upload Image:上传需要编辑的图片。
  • Edit Instruction:编辑指令。
  • Reasoning Depth:推理深度。
  • Text Guidance Scale:控制提示对输出的影响程度。值越高影响越大。
  • Processing Steps:更多步骤等于质量更好但速度更慢。
  • Edit Progression:控制生成进程。
  • Original Preservation:图像保真度,更高等于保留原始更多。

结果 

2.5 Image Understanding

具体参数:

  • Upload Image:上传需要编辑的图片。
  • Your Question:您的问题。

结果 

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下:

@article{deng2025bagel,
  title   = {Emerging Properties in Unified Multimodal Pretraining},
  author  = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
  journal = {arXiv preprint arXiv:2505.14683},
  year    = {2025}
}