NodePiece: تمثيلات مركبة وفعالة من حيث المعاملات للمخططات المعرفية الكبيرة

تُحوّل الخوارزميات التقليدية لتعلم التمثيل في الرسوم المعرفية (KG) كل كيان إلى متجه تمثيل فريد. يؤدي هذا النموذج السطحي للبحث إلى نمو خطي في استهلاك الذاكرة لتخزين مصفوفة التمثيلات، كما يُسبّب تكاليف حسابية عالية عند التعامل مع الرسوم المعرفية الواقعية. مستلهمين من تقنية تقسيم الوحدات الفرعية (subword tokenization) الشائعة في معالجة اللغة الطبيعية (NLP)، نستكشف مساحات أكثر كفاءة من حيث عدد المعاملات في استراتيجيات تمثيل العقد، مع احتمالات لاحتياجات ذاكرة دون خطية. ولتحقيق ذلك، نقترح طريقة NodePiece، وهي منهجية تعتمد على العقد المرجعية (anchors) لتعلم قاموس ثابت الحجم للكيانات. في NodePiece، يُبنى قاموس من الوحدات الفرعية للعُقد/الكيانات من خلال عقد مرجعية في الرسم البياني، مع معرفة نوع العلاقات بينها. وباستخدام هذا القاموس الثابت الحجم، يمكن توليد تمثيل وتشفير لأي كيان، بما في ذلك الكيانات غير المرئية أثناء التدريب. تُظهر التجارب أن NodePiece تُحقّق أداءً تنافسيًا في مهام تصنيف العقد، وتنبؤ الروابط، وتنبؤ العلاقات، مع الحفاظ على أقل من 10% من العقد الفعلية في الرسم البياني كعقد مرجعية، وغالبًا ما تكون عدد المعاملات فيها أقل بعشر مرات. وبهذا، نُظهر أن النموذج المُفعّل بـ NodePiece يتفوّق على النماذج السطحية الحالية في رسم معرفي كبير من OGB WikiKG2، مع استخدام عدد معاملات أقل بـ 70 مرة.