HyperAIHyperAI

Command Palette

Search for a command to run...

LongCat-Image:双语文本驱动图像生成系统

Date

8 天前

Size

53.22 MB

License

Apache 2.0

Paper URL

arxiv.org

一、教程简介

Build

LongCat-Image 是由美团 LongCat 团队于 2025 年 12 月发布的开源图像生成与编辑基础模型,面向中文与英文双语场景构建,具备卓越的文本到图像生成与文本渲染能力。该模型在仅 6B 参数规模下即展现出远超同类开源模型的效率与性能,在多项基准测试中实现高质量、真实感强的视觉生成效果,并在中文文本渲染的准确性与覆盖度上达到行业领先水平。同时,LongCat-Image 还提供了先进的图像编辑能力与完善的开源工具链,使开发者能够以更低门槛完成部署、研究与二次开发,为开放源生态带来高效、真实且高质量的图像产出体验。相关论文成果为 LongCat-Image Technical Report

本教程默认使用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可输入文本,生成图片

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 3-4 分钟后刷新页面。

使用步骤

参数说明(Parameter Description)

  • 自定义 LoRA(可选)
    • Custom LoRA:输入 LoRA 权重的 URL 或路径,用于加载额外风格或能力的 LoRA 模型
    • LoRA Scale:LoRA 作用强度(范围 0~2)
  • 输出分辨率
    • Width(宽度):生成图像的宽度(64~2048,可自行输入或拖动滑条)
    • Height(高度):生成图像的高度(64~2048,可自行输入或拖动滑条)
  • 随机种子设置
    • Seed(种子):控制生成图像的随机性
      • -1 或勾选 Randomize 代表每次随机种子
      • 输入固定数字则可复现同一张图
    • Randomize seed(随机种子):勾选后每次生成都会使用不同种子
  • 推理参数
    • Inference Steps(推理步数):影响生成质量与速度(范围 1~100,数值越大图像质量通常越高但耗时越久)
    • Guidance Scale(引导强度):控制「文本提示」对图像的影响程度(范围 1~20)
      • 值越大越「贴合提示词」
      • 值较低则更自由、更具随机性

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供