التاريخ

منذ عام واحد

الحجم

6.33 GB

الوسوم

GitHub

رابط الورقة البحثية

مقدمة البرنامج التعليمي

تم إصدار نموذج قاعدة العالم Cosmos بواسطة NVIDIA في عام 2025. وهو مفتوح لمجتمع مطوري الذكاء الاصطناعي المادي وهو نموذج متقدم تم تدريبه بملايين الساعات من بيانات الفيديو الخاصة بالقيادة والروبوتات.

سلسلة النماذج عبارة عن شبكات عصبية يمكنها التنبؤ وإنشاء مقاطع فيديو واعية جسديًا للحالة المستقبلية للبيئات الافتراضية لمساعدة المطورين في بناء جيل جديد من الروبوتات والمركبات ذاتية القيادة (AVs).

مثل نموذج اللغة الكبير، ينتمي نموذج العالم الأساسي (WFM) إلى فئة النماذج الأساسية. تستخدم هذه النماذج بيانات الإدخال بما في ذلك النصوص والصور ومقاطع الفيديو والحركة لإنشاء عوالم افتراضية ومحاكاتها لمحاكاة العلاقات المكانية للأشياء في المشهد وتفاعلاتها المادية بدقة.

في معرض CES 2025، كشفت NVIDIA عن الدفعة الأولى من نماذج Cosmos العالمية لمحاكاة تعتمد على الفيزياء وتوليد البيانات الاصطناعية، وهي مجهزة بمرمزات متقدمة، وحواجز حماية، وسير عمل معالجة وإدارة البيانات المتسارعة، وأطر عمل تخصيص النماذج وتحسينها.

تُعد نماذج Cosmos العالمية عبارة عن مجموعة من نماذج المحولات الانتشارية والانحدارية المفتوحة لتوليد الفيديو المتوافق مع الفيزياء. تم تدريب هذه النماذج على 900 تريليون رمز بناءً على 20 مليون ساعة من التفاعل البشري في العالم الحقيقي، والبيانات البيئية والصناعية والروبوتية والقيادة. تنقسم النماذج في هذه الفئة إلى ثلاث فئات: Nano، للنماذج المُحسّنة للاستدلال في الوقت الفعلي مع زمن انتقال منخفض ونشر الحافة؛ سوبر، للنماذج الأساسية عالية الأداء؛ و Ultra، بجودة عالية ودقة مناسبة لتقطير النماذج المخصصة.

المدونة ذات الصلة هي معرض الإلكترونيات الاستهلاكية 2025 | NVIDIA تفتح نموذج Cosmos World Foundation لمجتمع مطوري الذكاء الاصطناعي المادي.

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示，由于模型较大，所以需要使用 A6000 启动。

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

فتح مساحة العمل > فتح المحطة الطرفية

2. أدخل الأمر التالي لتنشيط البيئة

conda activate ./cosmos

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

cd Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

بعد ظهور المنفذ 8080، افتح عنوان API على اليمين للوصول إلى واجهة Gradio.

إنشاء فيديو

بعد الدخول إلى واجهة Gradio، أدخل كلمة المطالبة في "أدخل المطالبة" وانقر فوق "إرسال" لإجراء الاستدلال. يمكنك رؤية الفيديو الناتج بعد الانتظار لبضع دقائق.

（参考时间：使用 A6000 生成一段 5s 的视频约需要 30 分钟，生成视频时长默认为 5s，不可更改）

المناقشة والتبادل

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [تبادل الدروس] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ عام واحد

الحجم

6.33 GB

الوسوم

GitHub

رابط الورقة البحثية

مقدمة البرنامج التعليمي

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示，由于模型较大，所以需要使用 A6000 启动。

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

فتح مساحة العمل > فتح المحطة الطرفية

2. أدخل الأمر التالي لتنشيط البيئة

conda activate ./cosmos

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

cd Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

بعد ظهور المنفذ 8080، افتح عنوان API على اليمين للوصول إلى واجهة Gradio.

إنشاء فيديو

（参考时间：使用 A6000 生成一段 5s 的视频约需要 30 分钟，生成视频时长默认为 5s，不可更改）

المناقشة والتبادل

نشر نموذج SmolLM3-3B بنقرة واحدة

منذ 3 أشهر

نشر DeepSeek-R1-70B بنقرة واحدة

منذ 3 أشهر

نشر Ministry-3-14B-Instruct بنقرة واحدة

منذ 2 أشهر

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

منذ 3 أشهر

نشر Qwen-Image-Lightning بنقرة واحدة

منذ 2 أشهر

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

منذ 2 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

نشر نموذج Cosmos العالمي الأساسي بنقرة واحدة

مقدمة البرنامج التعليمي

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

2. أدخل الأمر التالي لتنشيط البيئة

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

إنشاء فيديو

المناقشة والتبادل

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشر نموذج Cosmos العالمي الأساسي بنقرة واحدة

مقدمة البرنامج التعليمي

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

2. أدخل الأمر التالي لتنشيط البيئة

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

إنشاء فيديو

المناقشة والتبادل

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر DeepSeek-R1-70B بنقرة واحدة

نشر Ministry-3-14B-Instruct بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشر نموذج Cosmos العالمي الأساسي بنقرة واحدة

مقدمة البرنامج التعليمي

طريقة التشغيل (تستغرق حوالي 15 ثانية للتهيئة بعد بدء تشغيل الحاوية، ثم تنفيذ العمليات التالية)

1. بعد الاستنساخ وبدء تشغيل الحاوية

2. أدخل الأمر التالي لتنشيط البيئة

3. أدخل الأمر التالي للتبديل إلى دليل Cosmos

4. أدخل الأمر التالي لبدء واجهة نموذج التدرج

إنشاء فيديو

المناقشة والتبادل

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر DeepSeek-R1-70B بنقرة واحدة

نشر Ministry-3-14B-Instruct بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر DeepSeek-R1-70B بنقرة واحدة

نشر Ministry-3-14B-Instruct بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر DeepSeek-R1-70B بنقرة واحدة

نشر Ministry-3-14B-Instruct بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل