Command Palette
Search for a command to run...
MMaDA: نموذج اللغة المنتشر الكبير متعدد الوسائط
Date
Size
757.43 MB
License
MIT
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

MMaDA-8B-Base هو نموذج لغوي ضخم متعدد الوسائط قائم على الانتشار، طُوِّر بالتعاون بين جامعة برينستون وفريق ByteDance Seed وجامعة بكين وجامعة تسينغهوا، وأُطلق في 23 مايو 2025. يُعد هذا النموذج أول نموذج موحد يستكشف بشكل منهجي بنية الانتشار كنموذج أساسي للتعلم متعدد الوسائط، بهدف تحقيق قدرات ذكية عامة عبر مهام الوسائط المتعددة من خلال دمج عميق للاستدلال النصي والفهم متعدد الوسائط وتوليد الصور. تتوفر أوراق بحثية ذات صلة. MMaDA: نماذج اللغة متعددة الوسائط ذات الانتشار الكبير .
تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة A6000 واحدة، والنموذج المستخدم هو MMaDA-8B-Base. يُقدَّم ثلاثة أمثلة على توليد النصوص، والفهم متعدد الوسائط، وتحويل النص إلى صورة للاختبار.
2. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام
1. إنشاء النص
المعلمات المحددة:
- المطالبة: يمكنك إدخال النص هنا.
- طول التوليد: عدد الرموز المولدة.
- خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
- طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
- استراتيجية إعادة القناع: استراتيجية إعادة القناع.
- مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
- درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.

النتيجة الناتجة

2. الفهم المتعدد الوسائط
المعلمات المحددة:
- المطالبة: يمكنك إدخال النص هنا.
- طول التوليد: عدد الرموز المولدة.
- خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
- طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
- استراتيجية إعادة القناع: استراتيجية إعادة القناع.
- مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
- درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.
- الصورة: الصورة.

النتيجة الناتجة

3. إنشاء نص إلى صورة
المعلمات المحددة:
- المطالبة: يمكنك إدخال النص هنا.
- خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
- مقياس التوجيه: لا يوجد توجيه للتصنيف. 0 يقوم بتعطيله.
- المجدول:
- جيب التمام: تحسب دالة تشابه جيب التمام مدى تشابه أزواج الجمل وتحسن متجهات التضمين.
- سيجماويد: تصنيف متعدد العلامات.
- خطي: تقوم الطبقة الخطية بتعيين متجه تضمين رقعة الصورة إلى بُعد أعلى لحساب الانتباه.

النتيجة الناتجة

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{yang2025mmada,
title={MMaDA: Multimodal Large Diffusion Language Models},
author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
journal={arXiv preprint arXiv:2505.15809},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.