Command Palette
Search for a command to run...
LongCat-Image:双语文本驱动图像生成系统
一、教程简介

LongCat-Image 是由美团 LongCat 团队于 2025 年 12 月发布的开源图像生成与编辑基础模型,面向中文与英文双语场景构建,具备卓越的文本到图像生成与文本渲染能力。该模型在仅 6B 参数规模下即展现出远超同类开源模型的效率与性能,在多项基准测试中实现高质量、真实感强的视觉生成效果,并在中文文本渲染的准确性与覆盖度上达到行业领先水平。同时,LongCat-Image 还提供了先进的图像编辑能力与完善的开源工具链,使开发者能够以更低门槛完成部署、研究与二次开发,为开放源生态带来高效、真实且高质量的图像产出体验。相关论文成果为 LongCat-Image Technical Report 。
本教程默认使用资源为单卡 RTX 5090 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可输入文本,生成图片
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 3-4 分钟后刷新页面。
使用步骤

参数说明(Parameter Description)
- 自定义 LoRA(可选)
- Custom LoRA:输入 LoRA 权重的 URL 或路径,用于加载额外风格或能力的 LoRA 模型
- LoRA Scale:LoRA 作用强度(范围 0~2)
- 输出分辨率
- Width(宽度):生成图像的宽度(64~2048,可自行输入或拖动滑条)
- Height(高度):生成图像的高度(64~2048,可自行输入或拖动滑条)
- 随机种子设置
- Seed(种子):控制生成图像的随机性
- -1 或勾选 Randomize 代表每次随机种子
- 输入固定数字则可复现同一张图
- Randomize seed(随机种子):勾选后每次生成都会使用不同种子
- Seed(种子):控制生成图像的随机性
- 推理参数
- Inference Steps(推理步数):影响生成质量与速度(范围 1~100,数值越大图像质量通常越高但耗时越久)
- Guidance Scale(引导强度):控制「文本提示」对图像的影响程度(范围 1~20)
- 值越大越「贴合提示词」
- 值较低则更自由、更具随机性
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
@article{LongCat-Image,
title={LongCat-Image Technical Report},
author={Meituan LongCat Team and Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
journal={arXiv preprint arXiv:2512.07584},
year={2025}
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.