مهام التدريب المسبق المُتوافقة مع المجال للبحث الكثيف

التدريب المسبق على مجموعات بيانات أكبر مع زيادة مستمرة في حجم النماذج أصبح الآن وصفة مثبتة لتحسين الأداء في معظم مهام معالجة اللغة الطبيعية. ويشكل استرجاع المعلومات استثناءً بارزًا، حيث فشل التدريب المسبق الإضافي حتى الآن في إنتاج نتائج مقنعة. نُظهر أن هذا الحد يمكن التغلب عليه بوجود إعداد مناسب للتدريب المسبق. ونُثبت ذلك من خلال تدريب نماذج ثنائي المُدخل (bi-encoder) الكبيرة على: 1) مجموعة حديثة تم إصدارها تتكون من 65 مليون سؤال تم إنشاؤها بشكل اصطناعي، و2) أزواج من المنشورات والتعليقات التي تبلغ 200 مليون زوج، مستمدة من مجموعة بيانات سابقة حول محادثات منصة Reddit، والتي أُطلقت عبر موقع pushshift.io. ونقيّم النتائج على مجموعة من معايير استرجاع المعلومات واسترجاع المحادثات، مُظهرين تحسينات كبيرة مقارنة بالأساليب المُعتمدة على التدريب المراقب.