HyperAIHyperAI
منذ 17 أيام

RetroMAE: التدريب المسبق لنماذج اللغة الموجهة للبحث من خلال مُشفّر تلقائي مُقنَّع

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao
RetroMAE: التدريب المسبق لنماذج اللغة الموجهة للبحث من خلال مُشفّر تلقائي مُقنَّع
الملخص

على الرغم من التقدم الذي أحرزه التدريب المسبق في العديد من المهام المهمة في معالجة اللغة الطبيعية (NLP)، تبقى هناك حاجة لاستكشاف استراتيجيات تدريب مسبق فعّالة لاسترجاع البيانات الكثيفة. في هذه الورقة، نقترح RetroMAE، نموذجًا جديدًا للتدريب المسبق مُوجّه نحو الاسترجاع، مبنيًا على مُعَمّل الترميز المُسَمّى (Masked Auto-Encoder - MAE). يتميّز RetroMAE بثلاثة تصميمات جوهرية:1) عملية جديدة لـ MAE، حيث يتم تلوث الجملة المدخلة للمُشفّر (encoder) والملفّق (decoder) باستخدام أقنعة مختلفة. يتم إنشاء تمثيل الجملة (sentence embedding) من المدخلات المُسَمّاة في المُشفّر، ثم يتم استرجاع الجملة الأصلية بناءً على تمثيل الجملة والدخول المُسَمّى في الملفّق من خلال نموذج اللغة المُسَمّى (masked language modeling).2) هيكل نموذج غير متماثل، يعتمد على مُشفّر من نوع BERT كامل المقياس (باستخدام نموذج تحويلي)، وملفّق مكوّن من طبقة واحدة من التحويلي.3) نسب تغطية غير متماثلة، حيث تُستخدم نسبة معتدلة في المُشفّر (من 15% إلى 30%)، ونسبة عالية جدًا في الملفّق (من 50% إلى 70%). يتميّز إطار العمل المُقترح ببساطته في التنفيذ، وفعاليته التجريبية: حيث تُحسّن النماذج المُدرّبة مسبقًا بشكل كبير الأداء القياسي (SOTA) في مجموعة واسعة من معايير الاسترجاع الكثيف، مثل BEIR وMS MARCO. تم إتاحة الشيفرة المصدرية والنماذج المُدرّبة مسبقًا بشكل علني على الرابط: https://github.com/staoxiao/RetroMAE، بهدف تحفيز أبحاث مثيرة أخرى في هذا المجال.