منذ 3 أشهر
تحسين إكمال رسم المعرفة على مجموعات بيانات ضخمة باستخدام معلومات الحدوث الزوجي
Esma Balkir, Masha Naslidnyk, Dave Palfrey, Arpit Mittal

الملخص
تُعد النماذج ثنائية الخطية مثل DistMult وComplEx أساليب فعّالة لإكمال الرسوم المعرفية (KG). ومع ذلك، فإنها تتطلب أحجامًا كبيرة للحزم (batch sizes)، مما يُشكل عائقًا أداءً عند التدريب على مجموعات بيانات ضخمة بسبب قيود الذاكرة. في هذه الورقة، نستخدم حدوث أزواج الكيان-العلاقة في مجموعة البيانات لبناء نموذج تعلّم مشترك وزيادة جودة العينات السلبية المُستَخَدَمة أثناء التدريب. ونُظهر على ثلاث مجموعات بيانات قياسية أن دمج هاتين التقنيتين يُحدث تحسينًا ملحوظًا في الأداء، خاصةً عندما تكون حجم الحزمة وعدد العينات السلبية المُولَّدة منخفضة مقارنةً بحجم مجموعة البيانات. ثم نطبّق تقنياتنا على مجموعة بيانات تحتوي على 2 مليون كيان، ونُظهر أن نموذجنا يتفوّق على النموذج الأساسي بنسبة 2.8% مطلقة في مؤشر hits@1.