الملخص

نُقدّم اقتراحًا لبناء ذكاء متعدد الوسائط (أومني-مودال)، يتمتع بقدرة على فهم أي وسائط وتعلم تمثيلات عالمية. وبشكل محدد، نقترح نموذجًا قابلاً للتوسع في التدريب المسبق، يُسمى "السياق متعدد الوسائط" (MiCo)، الذي يمكنه توسيع عدد الوسائط، وكمية البيانات، فضلًا عن عدد معاملات النموذج، خلال عملية التدريب المسبق. وباستخدام MiCo، تُظهر النماذج المدربة مسبقًا قدرات مُتَّسِمة مهمة في التعلم متعدد الوسائط، وتُقيَّم هذه القدرات على المهام التالية: أ) معايير فهم وسائط فردية تشمل 10 وسائط مختلفة، ب) 25 مهمة فهم بين الوسائط تشمل استرجاع المعلومات، والإجابة على الأسئلة، ووصف الصور (الكابشن)، ج) 18 معيارًا لنموذج لغوي كبير متعدد الوسائط. وقد سجّلت نماذجنا 37 سجلًا جديدًا في أداء الحالة الراهنة. ونأمل أن يسهم بحثنا في تطوير الذكاء متعدد الوسائط. الكود والنماذج متاحة على: https://github.com/invictus717/MiCo

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار