منذ 17 أيام

مشغلات استخلاص كبيرة ثنائية تُعدّ مُسترجعات قابلة للتوسيع

Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang

عرض تفاصيل الورقة البحثية

مشغلات استخلاص كبيرة ثنائية تُعدّ مُسترجعات قابلة للتوسيع

الملخص

أُظهر أن المُشفّرات الثنائية التي تُدرَّب على مجال واحد غالبًا ما تفشل في التعميم على مجالات أخرى في مهام الاسترجاع. ويعتبر الاعتقاد الشائع أن الطبقة الضيقة (bottleneck) في المُشفّر الثنائي، حيث تُحسب الدرجة النهائية ببساطة كمنتج نقطي بين متجه الاستعلام ومتجه الفقرة، تكون محدودة جدًا لدرجة تجعل المُشفّر الثنائي نموذجًا غير فعّال لمهام الاسترجاع في حالات التعميم خارج المجال. في هذا البحث، نتحدى هذا الاعتقاد من خلال تكبير حجم نموذج المُشفّر الثنائي مع الحفاظ على حجم التضمين الضيق ثابتًا. وباستخدام التدريب متعدد المراحل، يُظهر التوسع في حجم النموذج تحسنًا كبيرًا في مجموعة متنوعة من مهام الاسترجاع، وبشكل خاص في التعميم خارج المجال. تُظهر النتائج التجريبية أن مُشفّراتنا الثنائية، المُسمّاة GTR (Généralisable T5-based Dense Retriever)، تتفوّق بشكل كبير على نماذج ColBERT~\cite{khattab2020colbert} والنماذج الحالية ذات الكثافة والكثافة النادرة على مجموعة بيانات BEIR~\cite{thakur2021beir}. والأكثر إدهاشًا، تُظهر دراسة التحليل (ablation study) أن GTR فعّالة جدًا من حيث البيانات، حيث تحتاج فقط إلى 10٪ من بيانات MS MARCO المُعلَّمة لتحقيق أفضل أداء في التعميم خارج المجال. تم إصدار جميع نماذج GTR عبر الرابط: https://tfhub.dev/google/collections/gtr/1.