HyperAIHyperAI
منذ 9 أيام

الربط الذاتي للكيانات متعدد اللغات

Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni
الربط الذاتي للكيانات متعدد اللغات
الملخص

نقدّم mGENRE، وهو نظام تسلسلي-إلى-تسلسلي (sequence-to-sequence) لمشكلة ربط الكيانات متعددة اللغات (MEL) — وهي المهمة التي تتمثل في تحديد الإشارات اللغوية المحددة (mentions) وربطها بقاعدة معرفة متعددة اللغات (KB). بالنسبة لإشارة معينة بلغة معينة، يقوم mGENRE بتوقع اسم الكيان المستهدف من اليسار إلى اليمين، حرفًا بحرفًا، بطريقة تلقائية (autoregressive). إن الصيغة التلقائية تسمح لنا بترميز متقاطع فعّال بين سلسلة الإشارة واسم الكيان، مما يُمكّن من التقاط تفاعلات أكثر من الطريقة القياسية التي تعتمد على جداء النقطي بين متجهات الإشارة والكيان. كما تتيح هذه الصيغة إجراء بحث سريع داخل قاعدة معرفة كبيرة، حتى بالنسبة للإشارات التي لا تظهر في جداول الإشارات، دون الحاجة إلى فهارس متجهات ضخمة. في حين أن الأعمال السابقة لـ MEL تعتمد على تمثيل واحد فقط لكل كيان، فإننا نقوم بالمقارنة مع أسماء الكيانات بأكبر عدد ممكن من اللغات، مما يسمح باستغلال الروابط اللغوية بين النص المدخل والاسم المستهدف. علاوةً على ذلك، في سياق الإعداد الصفرية (zero-shot) للغات التي لا توجد بيانات تدريبية لها على الإطلاق، يُعامل mGENRE اللغة المستهدفة كمتغير خفي (latent variable) يتم تقليله (marginalized) أثناء عملية التنبؤ. وهذا يؤدي إلى تحسينات تفوق 50٪ في الدقة المتوسطة. نُظهر فعالية نهجنا من خلال تقييم واسع النطاق يشمل تجارب على ثلاث معايير شهيرة لمشكلة MEL، حيث يُحقق mGENRE نتائج جديدة في مستوى الحد الأقصى من الأداء (state-of-the-art). الكود والنماذج المُدرّبة مسبقًا متاحة على: https://github.com/facebookresearch/GENRE.