HyperAIHyperAI
منذ 16 أيام

نموذج لغوي مُدرَّب مسبقًا متعدد المهام لاستكمال الشبكة المعنى

Da Li, Sen Yang, Kele Xu, Ming Yi, Yukai He, Huaimin Wang
نموذج لغوي مُدرَّب مسبقًا متعدد المهام لاستكمال الشبكة المعنى
الملخص

تمثّل الشبكات الدلالية، مثل رسم المعرفة (Knowledge Graph)، المعرفة باستخدام هيكل الرسم البياني. وعلى الرغم من القيمة الواعدة التي تُظهرها رسم المعرفة في معالجة اللغة الطبيعية، إلا أنها تعاني من نقص في الإكمال. يركّز هذا البحث على إكمال رسم المعرفة من خلال التنبؤ بالروابط بين الكيانات، وهي مهمة أساسية وحاسمة. تُعدّ مطابقة الدلالة حلاً واعداً، لأنها تستطيع التعامل مع الكيانات غير المرئية، التي تواجهها مناهج الاعتماد على المسافة الترجمية صعوبات كبيرة. ومع ذلك، لتحقيق أداء تنافسي يُقاس بمناهج الاعتماد على المسافة الترجمية، تحتاج مناهج مطابقة الدلالة إلى مجموعات بيانات ضخمة لتدريب النموذج، وهي عادةً غير متوفرة في البيئات العملية. لذلك، نستخدم نموذج اللغة ونُقدّم بنية جديدة لرسم المعرفة تُسمّى LP-BERT، والتي تتضمن مرحلتين رئيسيتين: التدريب المسبق متعدد المهام وتحسين رسم المعرفة. في مرحلة التدريب المسبق، نُطبّق ثلاث مهام لتحفيز النموذج على تعلّم العلاقات من خلال التنبؤ إما بالكيانات أو العلاقات. أما في مرحلة التحسين، ومستلهمين من التعلم المقابل (Contrastive Learning)، فنُصمّم عينة سلبية على شكل ثلاثيات ضمن حزمة واحدة، مما يزيد بشكل كبير من نسبة العينات السلبية مع الحفاظ على الوقت المستهلك في التدريب تقريبًا دون تغيير. علاوة على ذلك، نُقدّم طريقة جديدة لتعزيز البيانات باستخدام العلاقة العكسية للثلاثيات، بهدف تحسين أداء النموذج ومقاومته. لتقديم دليل على فعالية طريقة العمل، نُجري تجارب واسعة النطاق على ثلاث مجموعات بيانات شائعة الاستخدام: WN18RR وFB15k-237 وUMLS. تُظهر النتائج التجريبية تفوق طريقة العمل، وتحقيقنا نتائج منافسة على مستوى الحد الأقصى (State-of-the-Art) على مجموعتي بيانات WN18RR وFB15k-237. وبشكل ملحوظ، تُحسّن مؤشر Hits@10 بنسبة 5% مقارنة بالنتيجة السابقة الأكثر تقدماً على مجموعة بيانات WN18RR، بينما تصل إلى 100% على مجموعة UMLS.

نموذج لغوي مُدرَّب مسبقًا متعدد المهام لاستكمال الشبكة المعنى | أحدث الأوراق البحثية | HyperAI