K-Adapter: دمج المعرفة في النماذج المُدرّبة مسبقًا باستخدام المُعدّلات

ندرس مشكلة إدخال المعرفة إلى النماذج الكبيرة المُدرّبة مسبقًا مثل BERT وRoBERTa. تُعد الطرق الحالية غالبًا ما تُحدِّث المعاملات الأصلية للنماذج المُدرّبة مسبقًا عند إدخال المعرفة. ومع ذلك، عند إدخال أنواع متعددة من المعرفة، تُفقد المعرفة التي تم إدخالها سابقًا. ولحل هذه المشكلة، نقترح إطار العمل K-Adapter، الذي يُبقي المعاملات الأصلية للنموذج المُدرّب مسبقًا ثابتة، ويُمكّن من تطوير نموذج مُزوّد بمعرفة متعددة. وباستخدام RoBERTa كنموذج أساسي، يحتوي K-Adapter على مُتَّصِل عصبي (adapter) لكل نوع من المعرفة المُدمجة، مشابه لملحق قابل للتركيب يُوصَل بـ RoBERTa. ولا يوجد تدفق معلومات بين المُتَّصِلات المختلفة، مما يسمح بتدريب عدة مُتَّصِلات بكفاءة عبر طريقة توزيعية. كدراسة حالة، نُدخل في هذه الدراسة نوعين من المعرفة، وهما: (1) معرفة واقعية مستمدة من ثلاثيات نصية تم تزامنها تلقائيًا من ويكيبيديا وويكidata، و(2) معرفة لغوية مستمدة من تحليل الاعتماد النحوي (dependency parsing). وتشير النتائج على ثلاث مهام تعتمد على المعرفة، تشمل تصنيف العلاقات، تصنيف الكيانات، والإجابة على الأسئلة، إلى أن كل مُتَّصِل يُحسّن الأداء، وأن الجمع بين كلا المُتَّصِلين يُحقق تحسينات إضافية. كما تُشير التحليلات الإضافية إلى أن K-Adapter يُمكّن من اكتساب معرفة متعددة أكثر من RoBERTa.