RelDiff: تحسين تمثيلات علاقات الرسم المعرفي لتصنيف الحساسية

يمكن أن تكون العلاقات القائمة بين الكيانات مؤشرًا موثوقًا لتصنيف المعلومات الحساسة، مثل المعلومات الحساسة من الناحية التجارية. على سبيل المثال، قد تشير العلاقة بين "الشخص-يُعدُّ مديرًا لشركة" إلى ما إذا كان ينبغي اعتبار راتب فرد معين معلومات شخصية حساسة أم لا. وغالبًا ما تُتعلم تمثيلات هذه العلاقات باستخدام رسم معرفي (Knowledge Graph) لإنتاج تمثيلات مُدمجة (Embeddings) لأنواع العلاقات، بشكل معمم عبر أزواج كيانات مختلفة. ومع ذلك، قد لا تتوافق نوعية العلاقة مع الحساسية، وذلك يعتمد على الكيانات المشاركة في هذه العلاقة. وبالتالي، تكون التمثيلات المُدمجة العامة للعلاقات غالبًا غير كافية لتصنيف المعلومات الحساسة. في هذا العمل، نقترح طريقة جديدة لتمثيل الكيانات والعلاقات ضمن تمثيل مدمج واحد، بهدف تحسين التقاط العلاقة بين الكيانات. علاوةً على ذلك، نُظهر أن نهجنا المبني على تمثيل الكيان-العلاقة-الكيان (Entity-Relation-Entity Embedding) يمكن أن يُحسّن بشكل ملحوظ (اختبار مك نيمار، p < 0.05) فعالية تصنيف الحساسية، مقارنةً بالطرق التقليدية التي تعتمد على تمثيلات العلاقات من الأدبيات السابقة (0.426 F1 مقابل 0.413 F1).