منذ 2 أشهر

إرني 2.0: إطار مستمر للتدريب المسبق لفهم اللغة

Yu Sun; Shuohuan Wang; Yukun Li; Shikun Feng; Hao Tian; Hua Wu; Haifeng Wang

الملخص

في الآونة الأخيرة، حققت النماذج المدربة مسبقًا نتائجًا رائدة في مجموعة متنوعة من مهام فهم اللغة، مما يشير إلى أن التدريب المسبق على كورпусات ذات نطاق واسع قد يلعب دورًا حاسمًا في معالجة اللغة الطبيعية. غالبًا ما تركز إجراءات التدريب الحالية على تدريب النموذج بعدة مهام بسيطة لفهم تكرار الكلمات أو الجمل معًا. ومع ذلك، بالإضافة إلى التكرار، هناك معلومات قيمة أخرى على الصعيدين الصرفي والدلالي في الكورпусات التدريبية، مثل الكيانات المسماة، والقُرب الدلالي، والعلاقات الخطابية. من أجل استخراج هذه المعلومات الصرفية والتركيبية والدلالية بأقصى حد من الكورпусات التدريبية، نقترح إطار تدريب مستمر يُسمى ERNIE 2.0 (إرنِي 2.0) والذي يقوم ببناء وتعلم المهام التدريبية المسبقة بشكل متزايد عبر التعلم المتعدد المستمر. تظهر نتائج التجارب أن ERNIE 2.0 (إرنِي 2.0) أداءً أفضل من BERT (بيرت) و XLNet (إكس-إلنت) في 16 مهمة تتضمن مهام GLUE (جلو) الإنجليزية وبعض المهام الشائعة باللغة الصينية. تم إطلاق الأكواد المصدر والنماذج المدربة مسبقًا على الرابط https://github.com/PaddlePaddle/ERNIE.