Command Palette
Search for a command to run...
LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي
Date
Size
10.51 MB
Tags
License
MIT
Paper URL
1. مقدمة البرنامج التعليمي

LongCat-Video هو نموذج مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي، يضم 13.6 مليار مُعامل، طوّره فريق LongCat التابع لشركة Meituan. يتفوق النموذج في مهام مثل تحويل النصوص إلى فيديو، وتحويل الصور إلى فيديو، واستكمال الفيديو، لا سيما في توليد مقاطع فيديو طويلة عالية الجودة بكفاءة. يستخدم النموذج خوارزمية تحسين التعلم المعزز متعدد المكافآت (GRPO)، ويُظهر أداءً يُضاهي نماذج توليد الفيديو الرائدة مفتوحة المصدر، والحلول التجارية المتطورة، وذلك في اختبارات داخلية وعامة. تتوفر أوراق بحثية ذات صلة. تقرير فني لفيديو LongCat .
يستخدم هذا البرنامج التعليمي وحدة معالجة رسومية واحدة RTX PRO 6000 لزيادة قوة الحوسبة. يُقدَّم أربعة أمثلة للاختبار: تحويل الصورة إلى فيديو، وتحويل النص إلى فيديو، والفيديو الطويل، واستمرار الفيديو.
2. عرض التأثير
1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة 5-6 دقائق ثم تحديث الصفحة.
1. تحويل الصورة إلى فيديو

وصف المعلمة:
- المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
- الدقة: تحدد أبعاد البكسل العرض × الارتفاع للصورة المولدة.
- البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.
2. تحويل النص إلى فيديو

وصف المعلمة:
- المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
- الارتفاع: يحدد ارتفاع الصورة التي تم إنشاؤها.
- العرض: يحدد عرض الصورة التي تم إنشاؤها.
- البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.
3. إنشاء مقاطع فيديو طويلة
يستغرق إنشاء الفيديو الطويل حوالي 20 دقيقة.

وصف المعلمة:
- المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
- عدد المقاطع: كلما زاد عدد المقاطع، كلما كان الفيديو أطول.
- البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.
4. استمرار الفيديو
يستغرق الفيديو التكميلي حوالي 20 دقيقة.

وصف المعلمة:
- المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
- الدقة: تحدد أبعاد البكسل العرض × الارتفاع للصورة المولدة.
- البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.
معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@misc{meituanlongcatteam2025longcatvideotechnicalreport,
title={LongCat-Video Technical Report},
author={Meituan LongCat Team and Xunliang Cai and Qilong Huang and Zhuoliang Kang and Hongyu Li and Shijun Liang and Liya Ma and Siyu Ren and Xiaoming Wei and Rixu Xie and Tong Zhang},
year={2025},
eprint={2510.22200},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2510.22200},
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.