HyperAI

MMaDA: نموذج اللغة المنتشر الكبير متعدد الوسائط

1. مقدمة البرنامج التعليمي

يبني

MMaDA-8B-Base هو نموذج لغة كبيرة متعدد الوسائط قائم على الانتشار، طُوّر بالتعاون بين جامعة برينستون وفريق بايت دانس سيد وجامعة بكين وجامعة تسينغهوا، ونُشر في 23 مايو 2025. يُمثّل هذا النموذج أول استكشاف منهجي لبنية الانتشار كنموذج موحد للنموذج الأساسي متعدد الوسائط، ويهدف إلى تحقيق قدرات ذكاء عام للمهام متعددة الوسائط من خلال التكامل العميق بين منطق النصوص والفهم متعدد الوسائط وتوليد الصور. نتائج البحث ذات الصلة هي:MMaDA: نماذج اللغة متعددة الوسائط ذات الانتشار الكبير".

تعتمد موارد الحوسبة في هذا البرنامج التعليمي على بطاقة A6000 واحدة، والنموذج المستخدم هو MMaDA-8B-Base. يُقدَّم ثلاثة أمثلة على توليد النصوص، والفهم متعدد الوسائط، وتحويل النص إلى صورة للاختبار.

2. عرض التأثير

عرض توضيحي لفك تشفير MMaDA

عرض توضيحي لفك تشفير MMaDA. يوضح هذا الفيديو كيفية إنشاء نصوص وصور باستخدام نموذج أساس الانتشار.
يستخدم جزء "إنشاء النص" طريقة أخذ العينات شبه الانحدارية الذاتية، في حين يستخدم جزء "الإنشاء المتعدد الوسائط" إزالة الضوضاء الانتشارية غير الانحدارية الذاتية.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. خطوات الاستخدام

1. إنشاء النص

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • طول التوليد: عدد الرموز المولدة.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
  • استراتيجية إعادة القناع: استراتيجية إعادة القناع.
  • مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
  • درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.

نتيجة 

2. الفهم المتعدد الوسائط

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • طول التوليد: عدد الرموز المولدة.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • طول الكتلة: يجب أن يكون gen_length قابلاً للقسمة على هذا الرقم.
  • استراتيجية إعادة القناع: استراتيجية إعادة القناع.
  • مقياس CFG: لا يوجد دليل تصنيف. 0 يقوم بتعطيله.
  • درجة الحرارة: تتحكم في العشوائية عبر ضوضاء جامبل. 0 هي قيمة حتمية.
  • الصورة: الصورة.

نتيجة 

3. إنشاء نص إلى صورة

المعلمات المحددة:

  • المطالبة: يمكنك إدخال النص هنا.
  • خطوات أخذ العينات الإجمالية: يجب أن تكون قابلة للقسمة على (gen_length / block_length).
  • مقياس التوجيه: لا يوجد توجيه للتصنيف. 0 يقوم بتعطيله.
  • المجدول:
    • جيب التمام: تحسب دالة تشابه جيب التمام مدى تشابه أزواج الجمل وتحسن متجهات التضمين.
    • سيجماويد: تصنيف متعدد العلامات.
    • خطي: تقوم الطبقة الخطية بتعيين متجه تضمين رقعة الصورة إلى بُعد أعلى لحساب الانتباه.

نتيجة 

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ  نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}