日期

2 个月前

大小

53.22 MB

标签

图像生成

许可证

Apache 2.0

GitHub

meituan-longcat/LongCat-Image

论文 URL

2512.07584

一、教程简介

LongCat-Image 是由美团 LongCat 团队于 2025 年 12 月发布的开源图像生成与编辑基础模型，面向中文与英文双语场景构建，具备卓越的文本到图像生成与文本渲染能力。该模型在仅 6B 参数规模下即展现出远超同类开源模型的效率与性能，在多项基准测试中实现高质量、真实感强的视觉生成效果，并在中文文本渲染的准确性与覆盖度上达到行业领先水平。同时，LongCat-Image 还提供了先进的图像编辑能力与完善的开源工具链，使开发者能够以更低门槛完成部署、研究与二次开发，为开放源生态带来高效、真实且高质量的图像产出体验。相关论文成果为 LongCat-Image Technical Report 。

本教程默认使用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可输入文本，生成图片

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 3-4 分钟后刷新页面。

使用步骤

参数说明（Parameter Description）

自定义 LoRA（可选）
- Custom LoRA：输入 LoRA 权重的 URL 或路径，用于加载额外风格或能力的 LoRA 模型
- LoRA Scale：LoRA 作用强度（范围 0～2）
输出分辨率
- Width（宽度）：生成图像的宽度（64～2048，可自行输入或拖动滑条）
- Height（高度）：生成图像的高度（64～2048，可自行输入或拖动滑条）
随机种子设置
- Seed（种子）：控制生成图像的随机性
  - -1 或勾选 Randomize 代表每次随机种子
  - 输入固定数字则可复现同一张图
- Randomize seed（随机种子）：勾选后每次生成都会使用不同种子
推理参数
- Inference Steps（推理步数）：影响生成质量与速度（范围 1～100，数值越大图像质量通常越高但耗时越久）
- Guidance Scale（引导强度）：控制「文本提示」对图像的影响程度（范围 1～20）
  - 值越大越「贴合提示词」
  - 值较低则更自由、更具随机性

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

2 个月前

大小

53.22 MB

标签

图像生成

许可证

Apache 2.0

GitHub

meituan-longcat/LongCat-Image

论文 URL

2512.07584

一、教程简介

本教程默认使用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可输入文本，生成图片

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 3-4 分钟后刷新页面。

使用步骤

参数说明（Parameter Description）

自定义 LoRA（可选）
- Custom LoRA：输入 LoRA 权重的 URL 或路径，用于加载额外风格或能力的 LoRA 模型
- LoRA Scale：LoRA 作用强度（范围 0～2）
输出分辨率
- Width（宽度）：生成图像的宽度（64～2048，可自行输入或拖动滑条）
- Height（高度）：生成图像的高度（64～2048，可自行输入或拖动滑条）
随机种子设置
- Seed（种子）：控制生成图像的随机性
  - -1 或勾选 Randomize 代表每次随机种子
  - 输入固定数字则可复现同一张图
- Randomize seed（随机种子）：勾选后每次生成都会使用不同种子
推理参数
- Inference Steps（推理步数）：影响生成质量与速度（范围 1～100，数值越大图像质量通常越高但耗时越久）
- Guidance Scale（引导强度）：控制「文本提示」对图像的影响程度（范围 1～20）
  - 值越大越「贴合提示词」
  - 值较低则更自由、更具随机性

四、交流探讨

引用信息

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

1 个月前

Ovis-Image：高质量图像生成模型

2 个月前

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

一键部署 Qwen-Image-Lightning

2 个月前

FLUX.2-dev：图像生成与编辑模型

2 个月前

Krea-realtime-video：实时视频生成模型

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LongCat-Image：双语文本驱动图像生成系统

一、教程简介

二、项目示例

三、运行步骤

参数说明（Parameter Description）

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LongCat-Image：双语文本驱动图像生成系统

一、教程简介

二、项目示例

三、运行步骤

参数说明（Parameter Description）

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Ovis-Image：高质量图像生成模型

HunyuanOCR：腾讯混元端到端 OCR

Depth-Anything-3：从任何视角恢复视觉空间

一键部署 Qwen-Image-Lightning

FLUX.2-dev：图像生成与编辑模型

Krea-realtime-video：实时视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LongCat-Image：双语文本驱动图像生成系统

一、教程简介

二、项目示例

三、运行步骤

参数说明（Parameter Description）

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Ovis-Image：高质量图像生成模型

HunyuanOCR：腾讯混元端到端 OCR

Depth-Anything-3：从任何视角恢复视觉空间

一键部署 Qwen-Image-Lightning

FLUX.2-dev：图像生成与编辑模型

Krea-realtime-video：实时视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Ovis-Image：高质量图像生成模型

HunyuanOCR：腾讯混元端到端 OCR

Depth-Anything-3：从任何视角恢复视觉空间

一键部署 Qwen-Image-Lightning

FLUX.2-dev：图像生成与编辑模型

Krea-realtime-video：实时视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Ovis-Image：高质量图像生成模型

HunyuanOCR：腾讯混元端到端 OCR

Depth-Anything-3：从任何视角恢复视觉空间

一键部署 Qwen-Image-Lightning

FLUX.2-dev：图像生成与编辑模型

Krea-realtime-video：实时视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型