UNIMO: نحو الفهم المُوحَّد للوسائط والإنشاء من خلال التعلم التبايني عبر الوسائط

تُركّز الطرق الحالية للتدريب المسبق إما على المهام ذات النمط الواحد أو المهام متعددة الأنماط، ولا يمكنها التكيّف الفعّال مع بعضها البعض. إذ يمكنها فقط استخدام بيانات ذات نمط واحد (أي النص أو الصورة) أو بيانات متعددة الأنماط المحدودة (أي أزواج الصورة والنص). في هذه الدراسة، نقترح معمارية تدريب مسبق موحدة تُسمّى UNIMO، التي تُظهر كفاءة عالية في التكيّف مع مهام الفهم والإنشاء ذات النمط الواحد والمتعددة الأنماط. ويمكن استخدام كميات كبيرة من مجموعات النصوص الحرة والصور لتحسين قدرة الفهم البصري والنصي، كما نستخدم التعلم المقابل المتقاطع بين الأنماط (CMCL) لمحاذاة المعلومات النصية والبصرية داخل فضاء معنوي موحد على أساس مجموعة من أزواج الصور والنصوص. وبما أن البيانات ذات النمط الواحد غير المرتبطة متوفرة بكميات كبيرة، فإن نموذجنا يمكنه الاستفادة من كميات بيانات أكبر بكثير لتعلم تمثيلات أكثر عمومية. علاوةً على ذلك، يمكن للمعرفة النصية والمعرفة البصرية أن تُعزّز بعضها البعض داخل الفضاء المعنوي الموحّد. وتُظهر النتائج التجريبية أن UNIMO تحسّن بشكل ملحوظ أداء العديد من المهام التالية ذات النمط الواحد والمتعددة الأنماط. تم إتاحة الكود والنموذج المُدرّب مسبقًا بشكل عام على صفحة مشروع UNIMO: https://unimo-ptm.github.io/