منذ 17 أيام

RetroMAE: التدريب المسبق لنماذج اللغة الموجهة للبحث من خلال مُشفّر تلقائي مُقنَّع

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao

الملخص

على الرغم من التقدم الذي أحرزه التدريب المسبق في العديد من المهام المهمة في معالجة اللغة الطبيعية (NLP)، تبقى هناك حاجة لاستكشاف استراتيجيات تدريب مسبق فعّالة لاسترجاع البيانات الكثيفة. في هذه الورقة، نقترح RetroMAE، نموذجًا جديدًا للتدريب المسبق مُوجّه نحو الاسترجاع، مبنيًا على مُعَمّل الترميز المُسَمّى (Masked Auto-Encoder - MAE). يتميّز RetroMAE بثلاثة تصميمات جوهرية:1) عملية جديدة لـ MAE، حيث يتم تلوث الجملة المدخلة للمُشفّر (encoder) والملفّق (decoder) باستخدام أقنعة مختلفة. يتم إنشاء تمثيل الجملة (sentence embedding) من المدخلات المُسَمّاة في المُشفّر، ثم يتم استرجاع الجملة الأصلية بناءً على تمثيل الجملة والدخول المُسَمّى في الملفّق من خلال نموذج اللغة المُسَمّى (masked language modeling).2) هيكل نموذج غير متماثل، يعتمد على مُشفّر من نوع BERT كامل المقياس (باستخدام نموذج تحويلي)، وملفّق مكوّن من طبقة واحدة من التحويلي.3) نسب تغطية غير متماثلة، حيث تُستخدم نسبة معتدلة في المُشفّر (من 15% إلى 30%)، ونسبة عالية جدًا في الملفّق (من 50% إلى 70%). يتميّز إطار العمل المُقترح ببساطته في التنفيذ، وفعاليته التجريبية: حيث تُحسّن النماذج المُدرّبة مسبقًا بشكل كبير الأداء القياسي (SOTA) في مجموعة واسعة من معايير الاسترجاع الكثيف، مثل BEIR وMS MARCO. تم إتاحة الشيفرة المصدرية والنماذج المُدرّبة مسبقًا بشكل علني على الرابط: https://github.com/staoxiao/RetroMAE، بهدف تحفيز أبحاث مثيرة أخرى في هذا المجال.