منذ 16 أيام

إلى تدريب نموذج لغوي فعّال والتكيف اللاحق من خلال التطور الذاتي: دراسة حالة على SuperGLUE

Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao, Xiaoou Tang, Dacheng Tao

عرض تفاصيل الورقة البحثية

إلى تدريب نموذج لغوي فعّال والتكيف اللاحق من خلال التطور الذاتي: دراسة حالة على SuperGLUE

الملخص

يقدم هذا التقرير التقني وصفًا موجزًا لتقديم فريقنا JDExplore d-team، المُسمى Vega v2، على قائمة التصنيف SuperGLUE. يُعدّ SuperGLUE أكثر تحديًا من معيار تقييم الفهم العام للغة الشائع الاستخدام، المعروف بـ GLUE، حيث يحتوي على ثمانية مهام صعبة في فهم اللغة، بما في ذلك الإجابة على الأسئلة، والاستنتاج اللغوي الطبيعي، وتوضيح معنى الكلمات، وحل التماثل النحوي، والتفكير المنطقي. [الطريقة] بدلًا من زيادة حجم نموذج اللغة المُدرّب مسبقًا (PLM) بشكل عشوائي، يهدف بحثنا إلى: 1) استخلاص المعرفة بالكامل من بيانات التدريب المُسبقة، ضمن حد معين من عدد المعاملات، مثل 6B، و2) نقل هذه المعرفة بشكل فعّال إلى المهام التطبيقية. لتحقيق الهدف الأول، نقترح تقنية التعلم الذاتي-التطوري لنموذج PLM، والتي تُحسّن من توقع الرموز المهمة التي ينبغي تغطيتها، وتدعم عملية التدريب على نمذجة اللغة المُغطاة (MLM) باستخدام تسميات ناعمة مصححة. أما للوصول إلى الهدف الثاني، نعتمد تقنية نقل النماذج (prompt transfer) لتحسين المهام ذات الموارد المحدودة، وذلك من خلال نقل المعرفة من النموذج الأساسي والمهام التطبيقية المرتبطة به إلى المهمة المستهدفة. [النتائج] وفقًا لسجل التقديم الخاص بنا (أكتوبر 2022)، وباستخدام استراتيجياتنا المُحسّنة للتدريب المسبق والضبط الدقيق، حقق نموذجنا Vega بحجم 6B أداءً جديدًا على مستوى العالم في 4 من أصل 8 مهام، واحتل الصدارة في قائمة تصنيف SuperGLUE في 8 أكتوبر 2022، بتحصيل متوسط درجة قدرها 91.3.