مولد الوسائط
يُعد مولد الوسائط (MG) مكونًا أساسيًا في نظام التعلم المتعدد الوسائط. وظيفتها الرئيسية هي إنشاء مخرجات من وسائط مختلفة، مثل الصور أو مقاطع الفيديو أو الملفات الصوتية. في سياق النماذج متعددة الوسائط، يعمل مولد الوسائط عادةً مع مكونات أخرى مثل مشفر الوسائط (ME)، وجهاز عرض الإدخال (IP)، والعمود الفقري للنموذج الكبير (العمود الفقري LLM)، وجهاز عرض الإخراج (OP) لتحقيق فهم وتوليد البيانات متعددة الوسائط.
قد يتضمن التنفيذ المحدد لمولد النمط، ولكن لا يقتصر على، التقنيات أو النماذج التالية:
- توليد الصور:مثل الانتشار المستقر، وهي تقنية توليد الصور استنادًا إلى نموذج الانتشار.
- إنشاء الفيديو:مثل Zeroscope، الذي يركز على إنشاء محتوى الفيديو.
- توليد الصوت:مثل AudioLDM، المستخدم لتوليد الإشارات الصوتية.