HyperAIHyperAI

Command Palette

Search for a command to run...

UNIMO: نحو الفهم المُوحَّد للوسائط والإنشاء من خلال التعلم التبايني عبر الوسائط

Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang

الملخص

تُركّز الطرق الحالية للتدريب المسبق إما على المهام ذات النمط الواحد أو المهام متعددة الأنماط، ولا يمكنها التكيّف الفعّال مع بعضها البعض. إذ يمكنها فقط استخدام بيانات ذات نمط واحد (أي النص أو الصورة) أو بيانات متعددة الأنماط المحدودة (أي أزواج الصورة والنص). في هذه الدراسة، نقترح معمارية تدريب مسبق موحدة تُسمّى UNIMO، التي تُظهر كفاءة عالية في التكيّف مع مهام الفهم والإنشاء ذات النمط الواحد والمتعددة الأنماط. ويمكن استخدام كميات كبيرة من مجموعات النصوص الحرة والصور لتحسين قدرة الفهم البصري والنصي، كما نستخدم التعلم المقابل المتقاطع بين الأنماط (CMCL) لمحاذاة المعلومات النصية والبصرية داخل فضاء معنوي موحد على أساس مجموعة من أزواج الصور والنصوص. وبما أن البيانات ذات النمط الواحد غير المرتبطة متوفرة بكميات كبيرة، فإن نموذجنا يمكنه الاستفادة من كميات بيانات أكبر بكثير لتعلم تمثيلات أكثر عمومية. علاوةً على ذلك، يمكن للمعرفة النصية والمعرفة البصرية أن تُعزّز بعضها البعض داخل الفضاء المعنوي الموحّد. وتُظهر النتائج التجريبية أن UNIMO تحسّن بشكل ملحوظ أداء العديد من المهام التالية ذات النمط الواحد والمتعددة الأنماط. تم إتاحة الكود والنموذج المُدرّب مسبقًا بشكل عام على صفحة مشروع UNIMO: https://unimo-ptm.github.io/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp