HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف حدود التدريب الشامل المتعدد الوسائط على نطاق واسع

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

الملخص

نُقدّم اقتراحًا لبناء ذكاء متعدد الوسائط (أومني-مودال)، يتمتع بقدرة على فهم أي وسائط وتعلم تمثيلات عالمية. وبشكل محدد، نقترح نموذجًا قابلاً للتوسع في التدريب المسبق، يُسمى "السياق متعدد الوسائط" (MiCo)، الذي يمكنه توسيع عدد الوسائط، وكمية البيانات، فضلًا عن عدد معاملات النموذج، خلال عملية التدريب المسبق. وباستخدام MiCo، تُظهر النماذج المدربة مسبقًا قدرات مُتَّسِمة مهمة في التعلم متعدد الوسائط، وتُقيَّم هذه القدرات على المهام التالية: أ) معايير فهم وسائط فردية تشمل 10 وسائط مختلفة، ب) 25 مهمة فهم بين الوسائط تشمل استرجاع المعلومات، والإجابة على الأسئلة، ووصف الصور (الكابشن)، ج) 18 معيارًا لنموذج لغوي كبير متعدد الوسائط. وقد سجّلت نماذجنا 37 سجلًا جديدًا في أداء الحالة الراهنة. ونأمل أن يسهم بحثنا في تطوير الذكاء متعدد الوسائط. الكود والنماذج متاحة على: https://github.com/invictus717/MiCo


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استكشاف حدود التدريب الشامل المتعدد الوسائط على نطاق واسع | مستندات | HyperAI