HyperAI

نشر نموذج Cosmos العالمي الأساسي بنقرة واحدة

GitHub LTX-فيديو

مقدمة البرنامج التعليمي

تم إصدار نموذج قاعدة العالم Cosmos بواسطة NVIDIA في عام 2025. وهو مفتوح لمجتمع مطوري الذكاء الاصطناعي المادي وهو نموذج متقدم تم تدريبه بملايين الساعات من بيانات الفيديو الخاصة بالقيادة والروبوتات.

سلسلة النماذج عبارة عن شبكات عصبية يمكنها التنبؤ وإنشاء مقاطع فيديو واعية جسديًا للحالة المستقبلية للبيئات الافتراضية لمساعدة المطورين في بناء جيل جديد من الروبوتات والمركبات ذاتية القيادة (AVs).

مثل نموذج اللغة الكبير، ينتمي نموذج العالم الأساسي (WFM) إلى فئة النماذج الأساسية. تستخدم هذه النماذج بيانات الإدخال بما في ذلك النصوص والصور ومقاطع الفيديو والحركة لإنشاء عوالم افتراضية ومحاكاتها لمحاكاة العلاقات المكانية للأشياء في المشهد وتفاعلاتها المادية بدقة.

في معرض CES 2025، كشفت NVIDIA عن الدفعة الأولى من نماذج Cosmos العالمية لمحاكاة تعتمد على الفيزياء وتوليد البيانات الاصطناعية، وهي مجهزة بمرمزات متقدمة، وحواجز حماية، وسير عمل معالجة وإدارة البيانات المتسارعة، وأطر عمل تخصيص النماذج وتحسينها.

تُعد نماذج Cosmos العالمية عبارة عن مجموعة من نماذج المحولات الانتشارية والانحدارية المفتوحة لتوليد الفيديو المتوافق مع الفيزياء. تم تدريب هذه النماذج على 900 تريليون رمز بناءً على 20 مليون ساعة من التفاعل البشري في العالم الحقيقي، والبيانات البيئية والصناعية والروبوتية والقيادة. تنقسم النماذج في هذه الفئة إلى ثلاث فئات: Nano، للنماذج المُحسّنة للاستدلال في الوقت الفعلي مع زمن انتقال منخفض ونشر الحافة؛ سوبر، للنماذج الأساسية عالية الأداء؛ و Ultra، بجودة عالية ودقة مناسبة لتقطير النماذج المخصصة.

المدونات ذات الصلة هيمعرض الإلكترونيات الاستهلاكية 2025 | NVIDIA تفتح نموذج Cosmos World Foundation لمجتمع مطوري الذكاء الاصطناعي المادي".

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示,由于模型较大,所以需要使用 A6000 启动。

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

فتح مساحة العمل > فتح المحطة الطرفية

2. أدخل الأمر التالي لتنشيط البيئة

conda activate ./cosmos

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

cd Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

بعد ظهور المنفذ 8080، افتح عنوان API على اليمين للوصول إلى واجهة Gradio.

إنشاء فيديو

بعد الدخول إلى واجهة Gradio، أدخل كلمة المطالبة في "أدخل المطالبة" وانقر فوق "إرسال" لإجراء الاستدلال. يمكنك رؤية الفيديو الناتج بعد الانتظار لبضع دقائق.

(参考时间:使用 A6000 生成一段 5s 的视频约需要 30 分钟,生成视频时长默认为 5s,不可更改)

المناقشة والتبادل

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [تبادل الدروس] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓