HyperAIHyperAI

Command Palette

Search for a command to run...

MMaDA: نموذج اللغة المنتشر الكبير متعدد الوسائط

1. مقدمة البرنامج التعليمي

يبني

MMaDA-8B-Base هو نموذج لغة كبيرة متعدد الوسائط قائم على الانتشار، طُوّر بالتعاون بين جامعة برينستون وفريق بايت دانس سيد وجامعة بكين وجامعة تسينغهوا، ونُشر في 23 مايو 2025. يُمثّل هذا النموذج أول استكشاف منهجي لبنية الانتشار كنموذج موحد للنموذج الأساسي متعدد الوسائط، ويهدف إلى تحقيق قدرات ذكاء عام للمهام متعددة الوسائط من خلال التكامل العميق بين منطق النصوص والفهم متعدد الوسائط وتوليد الصور. نتائج البحث ذات الصلة هي:MMaDA: نماذج اللغة متعددة الوسائط ذات الانتشار الكبير".

تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة A6000 واحدة، والنموذج المستخدم هو MMaDA-8B-Base. يُقدَّم ثلاثة أمثلة على توليد النصوص، والفهم متعدد الوسائط، وتحويل النص إلى صورة للاختبار.

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

1. إنشاء النص

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • طول التوليد: عدد الرموز المولدة.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
  • استراتيجية إعادة القناع: استراتيجية إعادة القناع.
  • مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
  • درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.

النتيجة الناتجة

2. الفهم المتعدد الوسائط

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • طول التوليد: عدد الرموز المولدة.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
  • استراتيجية إعادة القناع: استراتيجية إعادة القناع.
  • مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
  • درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.
  • الصورة: الصورة.

النتيجة الناتجة

3. إنشاء نص إلى صورة

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • مقياس التوجيه: لا يوجد توجيه للتصنيف. 0 يقوم بتعطيله.
  • المجدول:
    • جيب التمام: تحسب دالة تشابه جيب التمام مدى تشابه أزواج الجمل وتحسن متجهات التضمين.
    • سيجماويد: تصنيف متعدد العلامات.
    • خطي: تقوم الطبقة الخطية بتعيين متجه تضمين رقعة الصورة إلى بُعد أعلى لحساب الانتباه.

النتيجة الناتجة

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ  نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp