إرنى: تمثيل لغوى مُحسَّن مع كيانات معلوماتية

يمكن للنماذج التمثيلية للغة العصبية مثل BERT التي تم تدريبها مسبقًا على مجموعات بيانات كبيرة أن تلتقط الأنماط الدلالية الغنية من النصوص البسيطة، ويمكن تعديلها لتحسين أداء المهام المختلفة في معالجة اللغة الطبيعية (NLP) بشكل مستمر. ومع ذلك، فإن النماذج اللغوية المسبقة التدريب الحالية نادراً ما تأخذ في الاعتبار دمج الرسوم البيانية للمعرفة (KGs)، والتي يمكن أن توفر حقائق معرفية منظمة غنية لفهم أفضل للغة. نعتقد أن الكيانات المعلوماتية في الرسوم البيانية للمعرفة يمكن أن تعزز تمثيل اللغة بالمعرفة الخارجية. في هذا البحث، نستفيد من كل من مجموعات البيانات النصية الكبيرة والرسوم البيانية للمعرفة لتدريب نموذج تمثيلي للغة محسن (ERNIE)، والذي يمكنه الاستفادة الكاملة من المعلومات اللفظية والنحوية والمعرفية في آن واحد. وقد أظهرت نتائج التجارب أن ERNIE حققت تحسينات كبيرة في المهام المعتمدة على المعرفة المختلفة، وفي الوقت نفسه تكون مقاربة لأحدث النموذج BERT في المهام الشائعة الأخرى لمعالجة اللغة الطبيعية (NLP). يمكن الحصول على شفرة المصدر لهذا البحث من https://github.com/thunlp/ERNIE.