منذ 13 أيام

InfoXLM: إطار نظري معلوماتي للتدريب المسبق لنموذج اللغة عبر اللغات

Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou

الملخص

في هذا العمل، نقدم إطارًا نظريًا مبنيًا على نظرية المعلومات، يُصاغ فيه تدريب النماذج اللغوية عبر اللغات كعملية تهدف إلى تحسين المعلومات المتبادلة بين النصوص متعددة اللغات وبأحجام متعددة. يساعدنا هذا الرؤية الموحدة على فهم أعمق للطرق الحالية لتعلم التمثيلات عبر اللغات. وبشكل أكثر أهمية، مستوحى من هذا الإطار، نقترح مهمة جديدة للتدريب المسبق تعتمد على التعلم المقابل (contrastive learning). وبشكل خاص، نعتبر زوج الجملة الثنائية اللغة كوجهين لنفس المعنى، ونُشجع تمثيلاتهما المُشفرة على أن تكون أكثر تشابهًا من الأمثلة السلبية. وباستغلال كل من المجموعات النصية الأحادية اللغة والمجموعات المتزامنة، نُدرّب مهام التدريب المسبق بشكل مشترك لتحسين قدرة النماذج المُدرّبة مسبقًا على الانتقال عبر اللغات. أظهرت النتائج التجريبية على عدة معايير أداءً متميزًا بشكل ملحوظ. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://aka.ms/infoxlm.