HyperAIHyperAI
منذ 2 أشهر

ال Transformers المُدربة بشكل توليدي ومُهيكلة: نماذج لغوية نحوية غير مُشرف عليها على نطاق واسع

Xiang Hu; Pengyu Ji; Qingyang Zhu; Wei Wu; Kewei Tu
ال Transformers المُدربة بشكل توليدي ومُهيكلة: نماذج لغوية نحوية غير مُشرف عليها على نطاق واسع
الملخص

نموذج اللغة النحوي (SLM) يولد جملة بنمطها النحوي بشكل تدريجي من اليسار إلى اليمين. نقدم نموذج GPST، وهو نموذج متحول مهيكل مُدرب مسبقًا بدون إشراف يمكنه التدريب من الصفر على النصوص الخام بمستوى عالٍ من التوازي. يتجاوز GPST حدود النماذج النحوية السابقة مثل الاعتماد على الأشجار الذهبية والتدريب التتابعي. يتكون من مكونين، أحدهما هو نموذج لغة نحوي تقليدي يتم إشرافه بواسطة خسارة النمذجة اللغوية الأحادية الاتجاه، والآخر هو نموذج تركيبي إضافي يقوم بإنشاء أشجار التحليل النحوي وحساب تمثيلات المكونات، ويتم إشرافه بواسطة خسارة النمذجة اللغوية ثنائية الاتجاه. نقترح استخدام تمثيل بديل لتمكين التدريب المتوازي المشترك للنماذجين بطريقة EM صارمة. قمنا بتدريب GPST مسبقًا على مجموعة بيانات OpenWebText، وهي تحتوي على 9 مليارات رمز، وأظهرنا تفوق GPST على GPT-2 في العديد من المهام التي تغطي فهم اللغة وإنتاجها. وفي الوقت نفسه، يتفوق GPST بشكل كبير على النماذج النحوية غير المشرف عليها الحالية في استقراء القواعد من اليسار إلى اليمين، مع تحقيق تسريع كبير في التدريب.