DeepStruct: التدريب المسبق لنموذج اللغة للتنبؤ بالهيكل

نقدم طريقة لتحسين قدرات فهم الهيكل في نماذج اللغة. على عكس النهج السابقة التي تقوم بضبط النماذج بشكل دقيق باستخدام تحسين محدد للمهمة، نقوم بتدريب نماذج اللغة مسبقًا على مجموعة من المجموعات النصية غير المرتبطة بالمهمة لتوليد هيكل من النص. يمكّننا التدريب المسبق على الهيكل من نقل المعرفة المستفادة عن مهمات الهيكل بشكل فوري دون الحاجة إلى تدريب إضافي. درسنا أداء هذا النهج على 28 مجموعة بيانات، تغطي 10 مهمات للتنبؤ بالهيكل، بما في ذلك استخراج المعلومات المفتوح (Open Information Extraction)، استخراج الكيانات والعلاقات المشتركة (Joint Entity and Relation Extraction)، تحديد الكيانات المعروفة (Named Entity Recognition)، تصنيف العلاقات (Relation Classification)، تسمية الأدوار الدلالية (Semantic Role Labeling)، استخراج الأحداث (Event Extraction)، حل المشكلات المرجعية (Coreference Resolution)، الاستقصاء الوقائعي (Factual Probe)، اكتشاف النيّة (Intent Detection) وتعقب حالة الحوار (Dialogue State Tracking). نحن نعزز التدريب المسبق باستخدام مجموعات التدريب الخاصة بالمهمة. أظهرنا أن نموذج اللغة ذو الـ10 مليارات معلمة ينقل بشكل غير تافه إلى معظم المهام ويحقق أفضل الأداء في 21 من 28 مجموعة بيانات التي قمنا بتقييمها.