Command Palette
Search for a command to run...
K-Adapter: دمج المعرفة في النماذج المُدرّبة مسبقًا باستخدام المُعدّلات
K-Adapter: دمج المعرفة في النماذج المُدرّبة مسبقًا باستخدام المُعدّلات
Ruize Wang Duyu Tang Nan Duan Zhongyu Wei Xuanjing Huang Jianshu ji Guihong Cao Daxin Jiang Ming Zhou
الملخص
ندرس مشكلة إدخال المعرفة إلى النماذج الكبيرة المُدرّبة مسبقًا مثل BERT وRoBERTa. تُعد الطرق الحالية غالبًا ما تُحدِّث المعاملات الأصلية للنماذج المُدرّبة مسبقًا عند إدخال المعرفة. ومع ذلك، عند إدخال أنواع متعددة من المعرفة، تُفقد المعرفة التي تم إدخالها سابقًا. ولحل هذه المشكلة، نقترح إطار العمل K-Adapter، الذي يُبقي المعاملات الأصلية للنموذج المُدرّب مسبقًا ثابتة، ويُمكّن من تطوير نموذج مُزوّد بمعرفة متعددة. وباستخدام RoBERTa كنموذج أساسي، يحتوي K-Adapter على مُتَّصِل عصبي (adapter) لكل نوع من المعرفة المُدمجة، مشابه لملحق قابل للتركيب يُوصَل بـ RoBERTa. ولا يوجد تدفق معلومات بين المُتَّصِلات المختلفة، مما يسمح بتدريب عدة مُتَّصِلات بكفاءة عبر طريقة توزيعية. كدراسة حالة، نُدخل في هذه الدراسة نوعين من المعرفة، وهما: (1) معرفة واقعية مستمدة من ثلاثيات نصية تم تزامنها تلقائيًا من ويكيبيديا وويكidata، و(2) معرفة لغوية مستمدة من تحليل الاعتماد النحوي (dependency parsing). وتشير النتائج على ثلاث مهام تعتمد على المعرفة، تشمل تصنيف العلاقات، تصنيف الكيانات، والإجابة على الأسئلة، إلى أن كل مُتَّصِل يُحسّن الأداء، وأن الجمع بين كلا المُتَّصِلين يُحقق تحسينات إضافية. كما تُشير التحليلات الإضافية إلى أن K-Adapter يُمكّن من اكتساب معرفة متعددة أكثر من RoBERTa.