CDLM: النمذجة اللغوية بين الوثائق

نقدم نهجًا جديدًا للتدريب المسبق موجهًا لنموذج اللغة متعدد الوثائق، حيث يتم دمج فكرتين رئيسيتين في هدف التعلم الذاتي المراقب ذاتيًا لنموذج اللغة المقنّع. أولاً، بدلاً من النظر إلى الوثائق بشكل منفصل، نقوم بتدريب النموذج على مجموعات من وثائق متعددة مرتبطة ببعضها البعض، مما يشجع النموذج على تعلم العلاقات بين الوثائق. ثانيًا، نحسن من المتحولات الحديثة ذات النطاق الطويل من خلال تقديم انتباه عالمي ديناميكي يمكنه الوصول إلى الإدخال الكامل لتنبؤ الرموز المقنّعة. نطلق CDLM (Cross-Document Language Model)، وهو نموذج لغة عام جديد لمجموعة الوثائق المتعددة يمكن تطبيقه بسهولة على المهام اللاحقة. تظهر تحليلاتنا الشاملة أن كلتي الفكرتين ضروريتان لنجاح CDLM، وأنهما تعملان معًا بطريقة تكاملية لتحقيق أفضل النتائج الحالية في عدة مهام متعددة النصوص. يمكن الحصول على الكود والنماذج من https://github.com/aviclu/CDLM.