منذ 17 أيام
مُحَوِّلات ثنائيّة الاتجاه متعدّدة الوسائط مُشرَفة لتصنيف الصور والنصوص
Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine

الملخص
أدت النماذج ذات التدريب الذاتي ثنائية الاتجاه، مثل BERT، إلى تحسينات كبيرة في مجموعة واسعة من مهام التصنيف النصي. ومع ذلك، أصبح العالم الرقمي الحديث أكثر تعددية الوسائط، حيث يرافق المعلومات النصية غالبًا وسائط أخرى مثل الصور. نقدم نموذجًا ثنائي التحويل (bitransformer) متعدد الوسائط مُدرَّبًا بأسلوب مراقب، يُدمج المعلومات من مُشفرات النص والصور، ونحقق أداءً يُعدّ من أفضل الأداء في مهام التصنيف متعددة الوسائط المختلفة، متفوّقين على النماذج الأساسية القوية، بما في ذلك على مجموعات اختبار صعبة تم تصميمها خصيصًا لقياس الأداء متعدد الوسائط.