التاريخ

منذ 8 أشهر

الحجم

757.43 MB

الوسوم

فهم الصور

توليد الصور

متعدد الوسائط

الترخيص

MIT

GitHub

Gen-Verse/MMaDA

رابط الورقة البحثية

2505.15809

1. مقدمة البرنامج التعليمي

MMaDA-8B-Base هو نموذج لغوي ضخم متعدد الوسائط قائم على الانتشار، طُوِّر بالتعاون بين جامعة برينستون وفريق ByteDance Seed وجامعة بكين وجامعة تسينغهوا، وأُطلق في 23 مايو 2025. يُعد هذا النموذج أول نموذج موحد يستكشف بشكل منهجي بنية الانتشار كنموذج أساسي للتعلم متعدد الوسائط، بهدف تحقيق قدرات ذكية عامة عبر مهام الوسائط المتعددة من خلال دمج عميق للاستدلال النصي والفهم متعدد الوسائط وتوليد الصور. تتوفر أوراق بحثية ذات صلة. MMaDA: نماذج اللغة متعددة الوسائط ذات الانتشار الكبير .

تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة A6000 واحدة، والنموذج المستخدم هو MMaDA-8B-Base. يُقدَّم ثلاثة أمثلة على توليد النصوص، والفهم متعدد الوسائط، وتحويل النص إلى صورة للاختبار.

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

1. إنشاء النص

المعلمات المحددة:

المطالبة: يمكنك إدخال النص هنا.
طول التوليد: عدد الرموز المولدة.
خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
استراتيجية إعادة القناع: استراتيجية إعادة القناع.
مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.

النتيجة الناتجة

2. الفهم المتعدد الوسائط

المعلمات المحددة:

المطالبة: يمكنك إدخال النص هنا.
طول التوليد: عدد الرموز المولدة.
خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
استراتيجية إعادة القناع: استراتيجية إعادة القناع.
مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.
الصورة: الصورة.

النتيجة الناتجة

3. إنشاء نص إلى صورة

المعلمات المحددة:

المطالبة: يمكنك إدخال النص هنا.
خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
مقياس التوجيه: لا يوجد توجيه للتصنيف. 0 يقوم بتعطيله.
المجدول:
- جيب التمام: تحسب دالة تشابه جيب التمام مدى تشابه أزواج الجمل وتحسن متجهات التضمين.
- سيجماويد: تصنيف متعدد العلامات.
- خطي: تقوم الطبقة الخطية بتعيين متجه تضمين رقعة الصورة إلى بُعد أعلى لحساب الانتباه.

النتيجة الناتجة

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 8 أشهر

الحجم

757.43 MB

الوسوم

فهم الصور

توليد الصور

متعدد الوسائط

الترخيص

MIT

GitHub

Gen-Verse/MMaDA

رابط الورقة البحثية

2505.15809

1. مقدمة البرنامج التعليمي

تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة A6000 واحدة، والنموذج المستخدم هو MMaDA-8B-Base. يُقدَّم ثلاثة أمثلة على توليد النصوص، والفهم متعدد الوسائط، وتحويل النص إلى صورة للاختبار.