Command Palette
Search for a command to run...
استكشاف حدود التدريب الشامل المتعدد الوسائط على نطاق واسع
استكشاف حدود التدريب الشامل المتعدد الوسائط على نطاق واسع
Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue
الملخص
نُقدّم اقتراحًا لبناء ذكاء متعدد الوسائط (أومني-مودال)، يتمتع بقدرة على فهم أي وسائط وتعلم تمثيلات عالمية. وبشكل محدد، نقترح نموذجًا قابلاً للتوسع في التدريب المسبق، يُسمى "السياق متعدد الوسائط" (MiCo)، الذي يمكنه توسيع عدد الوسائط، وكمية البيانات، فضلًا عن عدد معاملات النموذج، خلال عملية التدريب المسبق. وباستخدام MiCo، تُظهر النماذج المدربة مسبقًا قدرات مُتَّسِمة مهمة في التعلم متعدد الوسائط، وتُقيَّم هذه القدرات على المهام التالية: أ) معايير فهم وسائط فردية تشمل 10 وسائط مختلفة، ب) 25 مهمة فهم بين الوسائط تشمل استرجاع المعلومات، والإجابة على الأسئلة، ووصف الصور (الكابشن)، ج) 18 معيارًا لنموذج لغوي كبير متعدد الوسائط. وقد سجّلت نماذجنا 37 سجلًا جديدًا في أداء الحالة الراهنة. ونأمل أن يسهم بحثنا في تطوير الذكاء متعدد الوسائط. الكود والنماذج متاحة على: https://github.com/invictus717/MiCo