WikiGraphs: مجموعة بيانات مترافقة بين نصوص ويكيبيديا ورسوم المعرفة

نقدم مجموعة بيانات جديدة تتكون من مقالات ويكيبديا مترافقة بكل منها بخريطة معرفية، لتسهيل البحث في توليد النصوص المشروط، وتوليد الرسوم البيانية، وتعلم تمثيل الرسوم البيانية. تتميز المجموعات السابقة للبيانات التي تحتوي على رسوم بيانية ونصوص مترافقة بأنها عادة ما تحتوي على رسوم صغيرة ونصوص قصيرة (جملة واحدة أو جمل قليلة)، مما يحد من قدرات النماذج التي يمكن تعلمها من البيانات. تم جمع مجموعتنا الجديدة WikiGraphs عن طريق ربط كل مقالة من مقالات ويكيبديا في مقاييس الـ WikiText-103 المعيارية (Merity et al., 2016) بجزء من خريطة Freebase المعرفية (Bollacker et al., 2008). هذا يجعل من السهل مقارنة أدائها مع نماذج توليد النصوص الأكثر تقدماً القادرة على إنتاج فقرات طويلة ومتماسكة من النصوص. تعتبر كل من الرسوم البيانية والبيانات النصية في هذه المجموعة أكبر بكثير بالمقارنة مع المجموعات السابقة للبيانات التي تحتوي على رسوم بيانية ونصوص مترافقة. نقدم نتائج النموذج الأولي لنماذج الشبكات العصبية الرسمية والمتحولين (transformers) على مجموعتنا للبيانات لأداء ثلاث مهمات: توليد النصوص من الرسم البياني، استرجاع النصوص من الرسم البياني واسترجاع الرسم البياني من النص. نوضح أن التحكم الأفضل بالرسم البياني يوفر تحسينًا في جودة التوليد والاسترجاع، ولكن لا يزال هناك مجال كبير للتحسين.