HyperAIHyperAI

Command Palette

Search for a command to run...

RetroMAE: التدريب المسبق لنماذج اللغة الموجهة للبحث من خلال مُشفّر تلقائي مُقنَّع

Shitao Xiao Zheng Liu Yingxia Shao Zhao Cao

الملخص

على الرغم من التقدم الذي أحرزه التدريب المسبق في العديد من المهام المهمة في معالجة اللغة الطبيعية (NLP)، تبقى هناك حاجة لاستكشاف استراتيجيات تدريب مسبق فعّالة لاسترجاع البيانات الكثيفة. في هذه الورقة، نقترح RetroMAE، نموذجًا جديدًا للتدريب المسبق مُوجّه نحو الاسترجاع، مبنيًا على مُعَمّل الترميز المُسَمّى (Masked Auto-Encoder - MAE). يتميّز RetroMAE بثلاثة تصميمات جوهرية:1) عملية جديدة لـ MAE، حيث يتم تلوث الجملة المدخلة للمُشفّر (encoder) والملفّق (decoder) باستخدام أقنعة مختلفة. يتم إنشاء تمثيل الجملة (sentence embedding) من المدخلات المُسَمّاة في المُشفّر، ثم يتم استرجاع الجملة الأصلية بناءً على تمثيل الجملة والدخول المُسَمّى في الملفّق من خلال نموذج اللغة المُسَمّى (masked language modeling).2) هيكل نموذج غير متماثل، يعتمد على مُشفّر من نوع BERT كامل المقياس (باستخدام نموذج تحويلي)، وملفّق مكوّن من طبقة واحدة من التحويلي.3) نسب تغطية غير متماثلة، حيث تُستخدم نسبة معتدلة في المُشفّر (من 15% إلى 30%)، ونسبة عالية جدًا في الملفّق (من 50% إلى 70%). يتميّز إطار العمل المُقترح ببساطته في التنفيذ، وفعاليته التجريبية: حيث تُحسّن النماذج المُدرّبة مسبقًا بشكل كبير الأداء القياسي (SOTA) في مجموعة واسعة من معايير الاسترجاع الكثيف، مثل BEIR وMS MARCO. تم إتاحة الشيفرة المصدرية والنماذج المُدرّبة مسبقًا بشكل علني على الرابط: https://github.com/staoxiao/RetroMAE، بهدف تحفيز أبحاث مثيرة أخرى في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RetroMAE: التدريب المسبق لنماذج اللغة الموجهة للبحث من خلال مُشفّر تلقائي مُقنَّع | مستندات | HyperAI