HyperAIHyperAI
منذ 9 أيام

الربط الكيانات في 100 لغة

Jan A. Botha, Zifei Shan, Daniel Gillick
الربط الكيانات في 100 لغة
الملخص

نُقدِّم صيغة جديدة لربط الكيانات متعددة اللغات، حيث تُرَمَز المُشارَات المُحدَّدة باللغة إلى قاعدة معرفة غير مُتَّصِلة باللغة. نُدرِّب نموذجًا مُكوَّنًا من مُشَرِّحَيْن (dual encoder) في هذا السياق الجديد، مستفيدين من الأبحاث السابقة مع تحسين تمثيل الميزات، وتحسين عملية استخراج العناصر السلبية (negative mining)، وتقديم مهمة إقران إضافية للكيانات، بهدف إنشاء نموذج موحد لاسترجاع الكيانات يغطي أكثر من 100 لغة و20 مليون كيان. يتفوّق هذا النموذج على أفضل النتائج المُسجَّلة في مهام ربط كيانات متعددة اللغات التي كانت محدودة النطاق سابقًا. ومع أن الكيانات النادرة واللغات ذات الموارد المحدودة تمثل تحديات كبيرة في هذا المستوى الضخم من التوسع، فإننا ندعو إلى التركيز المتزايد على تقييم النموذج في السيناريوهات الصفرية والقليلة (zero- and few-shot). ولتحقيق ذلك، نقدِّم مجموعة بيانات متعددة اللغات الجديدة Mewsli-9 (http://goo.gle/mewsli-dataset)، المُطابقة تمامًا لسياقنا، ونُظهِر كيف ساهم التحليل القائم على التكرار في توفير رؤى جوهرية لتحسين النموذج وعملية التدريب.