HyperAIHyperAI
منذ 17 أيام

مُحَوِّلات ثنائيّة الاتجاه متعدّدة الوسائط مُشرَفة لتصنيف الصور والنصوص

Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine
مُحَوِّلات ثنائيّة الاتجاه متعدّدة الوسائط مُشرَفة لتصنيف الصور والنصوص
الملخص

أدت النماذج ذات التدريب الذاتي ثنائية الاتجاه، مثل BERT، إلى تحسينات كبيرة في مجموعة واسعة من مهام التصنيف النصي. ومع ذلك، أصبح العالم الرقمي الحديث أكثر تعددية الوسائط، حيث يرافق المعلومات النصية غالبًا وسائط أخرى مثل الصور. نقدم نموذجًا ثنائي التحويل (bitransformer) متعدد الوسائط مُدرَّبًا بأسلوب مراقب، يُدمج المعلومات من مُشفرات النص والصور، ونحقق أداءً يُعدّ من أفضل الأداء في مهام التصنيف متعددة الوسائط المختلفة، متفوّقين على النماذج الأساسية القوية، بما في ذلك على مجموعات اختبار صعبة تم تصميمها خصيصًا لقياس الأداء متعدد الوسائط.

مُحَوِّلات ثنائيّة الاتجاه متعدّدة الوسائط مُشرَفة لتصنيف الصور والنصوص | أحدث الأوراق البحثية | HyperAI