منذ 3 أشهر

تحسين فهم اللغة من خلال التدريب المسبق التوليدي

{Tim Salimans, Ilya Sutskever, Alec Radford, Karthik Narasimhan}

الملخص

تشمل فهم اللغة الطبيعية طائفة واسعة من المهام المتنوعة مثل الاستخلاص النصي، والإجابة على الأسئلة، وتقييم التشابه الدلالي، وتصنيف المستندات. وعلى الرغم من توفر كميات كبيرة من مجموعات نصية غير مُعلّمة، إلا أن البيانات المُعلّمة الضرورية لتعلم هذه المهام المحددة نادرة، مما يجعل من الصعب على النماذج المدربة بشكل تمييزي أداءً جيدًا. نُظهر أن يمكن تحقيق تحسينات كبيرة في هذه المهام من خلال التدريب المسبق التوليدي لنموذج لغوي على مجموعة متنوعة من النصوص غير المُعلّمة، تليها عملية التأهيل التمييزي لكل مهمة محددة. على عكس النهج السابقة، نستخدم تحولات إدخال مُدركة للمهمة أثناء التأهيل، مما يتيح نقلًا فعّالًا مع الحاجة إلى تغييرات قليلة جدًا في بنية النموذج. نُثبت فعالية نهجنا على طائفة واسعة من المعايير الخاصة بفهم اللغة الطبيعية. ويتفوّق نموذجنا العام غير المُخصص للمهمة على النماذج المدربة تمييزيًا التي تستخدم هندسات مصممة خصيصًا لكل مهمة، مُحقّقًا تحسينًا ملحوظًا على أفضل النتائج المُحققة في 9 من أصل 12 مهمة درست. على سبيل المثال، نحقّق تحسينات مطلقة بنسبة 8.9% في التفكير المنطقي العام (اختبار ستوريز كلوز)، و5.7% في الإجابة على الأسئلة (RACE)، و1.5% في الاستخلاص النصي (MultiNLI).