Command Palette
Search for a command to run...
LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص
Date
Size
53.22 MB
Tags
License
Apache 2.0
Paper URL
1. مقدمة البرنامج التعليمي

LongCat-Image هو نموذج مفتوح المصدر لتوليد الصور وتحريرها، أطلقه فريق LongCat التابع لشركة Meituan في ديسمبر 2025. صُمم هذا النموذج خصيصًا للاستخدام في بيئات ثنائية اللغة (الصينية والإنجليزية)، ويتميز بقدرات استثنائية في تحويل النصوص إلى صور وعرضها. باستخدام 6 بايتات فقط من المعاملات، يُظهر هذا النموذج كفاءة وأداءً يفوقان بكثير النماذج مفتوحة المصدر المماثلة، محققًا نتائج توليد صور واقعية وعالية الجودة في العديد من الاختبارات المعيارية، ووصولًا إلى مستويات رائدة في دقة وتغطية عرض النصوص الصينية. علاوة على ذلك، يوفر LongCat-Image إمكانيات متقدمة لتحرير الصور ومجموعة أدوات شاملة مفتوحة المصدر، مما يُمكّن المطورين من نشر النموذج والبحث فيه وتطويره بسهولة أكبر، ليُضيف بذلك مخرجات صور فعالة وواقعية وعالية الجودة إلى بيئة البرمجيات مفتوحة المصدر. تتوفر أوراق بحثية ذات صلة. تقرير فني عن صور القطط الطويلة .
يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 5090 واحدة كمورد افتراضي.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك إدخال نص وإنشاء صورة.
إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة 3-4 دقائق ثم تحديث الصفحة.
كيفية الاستخدام

وصف المعلمة
- شبكة LoRA مخصصة (اختياري)
- LoRA مخصصأدخل عنوان URL أو المسار الخاص بأوزان LoRA لتحميل نماذج LoRA بأنماط أو إمكانيات إضافية.
- مقياس لوراشدة إشارة LoRA (النطاق 0-2)
- دقة الإخراج
- عرض: عرض الصورة المُنشأة (64~2048، يمكنك إدخاله بنفسك أو سحب شريط التمرير)
- ارتفاعارتفاع الصورة المُنشأة (64~2048، يمكن إدخاله يدويًا أو عن طريق سحب شريط التمرير)
- إعدادات البذور العشوائية
- بذرةالتحكم في عشوائية الصور المولدة
- -1 أو حدد "عشوائي" للإشارة إلى بذرة عشوائية في كل مرة.
- سيؤدي إدخال رقم ثابت إلى إعادة إنتاج نفس الصورة.
- بذرة عشوائيةعند تحديد الخيار، سيتم استخدام بذرة مختلفة لكل جيل.
- بذرةالتحكم في عشوائية الصور المولدة
- معلمات الاستدلال
- خطوات الاستدلاليؤثر على جودة وسرعة الإنتاج (النطاق من 1 إلى 100، كلما زادت القيمة، زادت جودة الصورة عادةً ولكن استغرق الأمر وقتًا أطول).
- مقياس التوجيهيتحكم في درجة تأثير "تلميحات النص" على الصور (النطاق 1-20).
- كلما ارتفعت القيمة، كلما كانت مطابقة للكلمة المطلوبة بشكل أدق.
- تشير القيم المنخفضة إلى مزيد من الحرية والعشوائية.

معلومات الاستشهاد
@article{LongCat-Image,
title={LongCat-Image Technical Report},
author={Meituan LongCat Team and Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
journal={arXiv preprint arXiv:2512.07584},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.