ENT-DESC: توليد وصف الكيانات من خلال استكشاف الرسم البياني للمعرفة

الدراسات السابقة في مجال توليد النص من المعرفة تأخذ كمدخل بضعة ثلاثيات RDF أو أزواج قيمة-مفتاح تحتوي على معلومات حول بعض الكيانات لتوليد وصف بلغة طبيعية. ومع ذلك، فإن المجموعات البيانات الحالية مثل WIKIBIO و WebNLG و E2E، لديها بشكل أساسي تناسق جيد بين مجموعة الثلاثيات/الأزواج المدخلة ونص الإخراج. ولكن في الواقع، يمكن أن تكون المعلومات المدخلة أكثر بكثير مما هو ضروري، حيث قد يغطي الوصف الناتج فقط المعرفة الأكثر أهمية. في هذا البحث، نقدم مجموعة بيانات كبيرة ومليئة بالتحديات لتسهيل دراسة هذا السيناريو العملي في مجال تحويل الرسم البياني للمعرفة إلى نص (KG-to-text). تتضمن مجموعتنا البيانات استرجاع كمية كبيرة من المعلومات من أنواع مختلفة من الكيانات الرئيسية من رسم بياني كبير للمعرفة (KG)، مما يجعل النماذج الحالية لتحويل الرسم البياني إلى تسلسل تعاني بشدة من مشاكل فقدان المعلومات وتضخم المعلمات أثناء إنشاء الأوصاف. نواجه هذه التحديات عبر اقتراح بنية متعددة الرسوم البيانية قادرة على تمثيل معلومات الرسم البياني الأصلي بشكل أكثر شمولية. بالإضافة إلى ذلك، ندمج أيضًا طرق التجميع التي تتعلم كيفية استخراج المعلومات الغنية من الرسم البياني. أثبتت التجارب الواسعة فعالية هندسة نموذجنا.