التاريخ

منذ 3 أشهر

الحجم

10.51 MB

الوسوم

توليد الفيديو

الترخيص

MIT

GitHub

meituan-longcat/LongCat-Video

رابط الورقة البحثية

2510.22200

1. مقدمة البرنامج التعليمي

LongCat-Video هو نموذج مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي، يضم 13.6 مليار مُعامل، طوّره فريق LongCat التابع لشركة Meituan. يتفوق النموذج في مهام مثل تحويل النصوص إلى فيديو، وتحويل الصور إلى فيديو، واستكمال الفيديو، لا سيما في توليد مقاطع فيديو طويلة عالية الجودة بكفاءة. يستخدم النموذج خوارزمية تحسين التعلم المعزز متعدد المكافآت (GRPO)، ويُظهر أداءً يُضاهي نماذج توليد الفيديو الرائدة مفتوحة المصدر، والحلول التجارية المتطورة، وذلك في اختبارات داخلية وعامة. تتوفر أوراق بحثية ذات صلة. تقرير فني لفيديو LongCat .

يستخدم هذا البرنامج التعليمي وحدة معالجة رسومية واحدة RTX PRO 6000 لزيادة قوة الحوسبة. يُقدَّم أربعة أمثلة للاختبار: تحويل الصورة إلى فيديو، وتحويل النص إلى فيديو، والفيديو الطويل، واستمرار الفيديو.

2. عرض التأثير

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة 5-6 دقائق ثم تحديث الصفحة.

1. تحويل الصورة إلى فيديو

وصف المعلمة:

المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
الدقة: تحدد أبعاد البكسل العرض × الارتفاع للصورة المولدة.
البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.

2. تحويل النص إلى فيديو

وصف المعلمة:

المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
الارتفاع: يحدد ارتفاع الصورة التي تم إنشاؤها.
العرض: يحدد عرض الصورة التي تم إنشاؤها.
البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.

3. إنشاء مقاطع فيديو طويلة

يستغرق إنشاء الفيديو الطويل حوالي 20 دقيقة.

وصف المعلمة:

المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
عدد المقاطع: كلما زاد عدد المقاطع، كلما كان الفيديو أطول.
البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.

4. استمرار الفيديو

يستغرق الفيديو التكميلي حوالي 20 دقيقة.

وصف المعلمة:

المطالبة السلبية: من خلال إدخال عناصر غير مرغوب فيها، فإنه يوجه النموذج لتجنب هذه الميزات، وبالتالي تحسين جودة المحتوى الناتج.
الدقة: تحدد أبعاد البكسل العرض × الارتفاع للصورة المولدة.
البذرة: تتحكم في نقطة بداية العشوائية في عملية التوليد. قيمة البذرة الثابتة تضمن نتائج قابلة للتكرار.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{meituanlongcatteam2025longcatvideotechnicalreport,
      title={LongCat-Video Technical Report}, 
      author={Meituan LongCat Team and Xunliang Cai and Qilong Huang and Zhuoliang Kang and Hongyu Li and Shijun Liang and Liya Ma and Siyu Ren and Xiaoming Wei and Rixu Xie and Tong Zhang},
      year={2025},
      eprint={2510.22200},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.22200}, 
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

Command Palette

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

1. مقدمة البرنامج التعليمي

2. عرض التأثير

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

1. مقدمة البرنامج التعليمي

2. عرض التأثير

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

واجهة تحرير الصور LongCat: نظام تحرير صور ثنائي اللغة يعتمد على النصوص

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Ovis-Image: نموذج توليد صور عالية الجودة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

FLUX.2-dev: نموذج إنشاء الصور وتحريرها

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

1. مقدمة البرنامج التعليمي

2. عرض التأثير

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل الصورة إلى فيديو

2. تحويل النص إلى فيديو

3. إنشاء مقاطع فيديو طويلة

4. استمرار الفيديو

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

واجهة تحرير الصور LongCat: نظام تحرير صور ثنائي اللغة يعتمد على النصوص

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Ovis-Image: نموذج توليد صور عالية الجودة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

FLUX.2-dev: نموذج إنشاء الصور وتحريرها

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

واجهة تحرير الصور LongCat: نظام تحرير صور ثنائي اللغة يعتمد على النصوص

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط